×
嵌入式 > 技术百科 > 详情

AMD 登陆机器学习领域,与英伟达、英特尔上演 AI 运算“三国杀”

发布时间:2020-06-06 发布时间:
|

近十年来, GPGPU(通用计算 GPU,用 GPU 处理运算任务)的浪潮完全由英伟达带领,把他们的 GPU 定位于 AI 和神经网络开发的首选运算平台。英伟达甚至已开始转型,把自己定位于 AI 计算公司,而不仅仅是 PC 用户眼中的游戏显卡开发商。

英伟达在 AI 计算的强势,使英特尔感到强烈压力——它一方面在憋大招,将在 2017 年把深度学习推理加速器和 72 核至强 Xeon Phi 芯片推向市场,构成英特尔 AI 产品线的“绝代双骄”(详见相关文章)。另一方面,在 GPU 专利技术上,转向与老对手 AMD 合作,颇有那么点“联蜀抗曹”的意思——似乎英伟达才是公司长远发展的头号对手。

反观 AMD 这边,不但手握新 CPU 架构 Zen(“禅”)、号称明年要在 PC 和服务器市场让英特尔难堪;同时还在紧锣密鼓地筹备新 GPU 架构 Vega (“织女星”),准备明年打破英伟达对高端显卡市场的垄断。然而,准备翻身的“农企”并不满足在 CPU 和游戏显卡这两个传统领域和老对手们较量,而是追着他们的脚后跟进入 AI 运算领域。

传统芯片巨头红、蓝、绿厂将在新战场开启三国杀。

12 月 9 日,雷锋网得到消息,AMD 召集行业人士秘密进行了一场关于 Vega 的产品说明会。现在,该会议的部分内容终于曝光——AMD 发布全新 AI 计算子品牌 “Radeon Instinct”,以及隶属该品牌的两大产品线:硬件加速器产品,和 ROCm 软件平台。AMD 将利用它们为超算客户提供软、硬件结合的解决方案。

Radeon Instinct 旗下两大产品:硬件加速器和软件 ROCm

三款硬件加速器

在硬件方面,AMD 共有三款产品发布——分别是基于 Polaris (“北极星”)、Fiji(“斐济”)和 Vega 的深度学习加速器 MI6、MI8 以及 MI25。其中,运算能力最强的 MI25 是 AI 训练加速器,前两者是推理加速器。

AMD 登陆机器学习领域,与英伟达、英特尔上演 AI 运算“三国杀”

MI6 采用降频的 Polaris 10 核心(RX 480 的核心),但显存增加至 16 GB ,并采取无风扇的被动散热(但利用服务器的散热系统),浮点计算能力每秒 5.7 万亿次。

MI8 体积小巧一些,这是因为它基于 Fiji 架构的 R9 Fury Nano 显卡。它采用和 Nano 一致的频率,同样的 4 GB 显存,这是因为 Nano 搭载的初代 HBM 显存最多只能支持 4GB。获悉,已有外媒提出质疑,但目前还不清楚这是否会为深度学习应用带来运算瓶颈。它浮点计算能力为每秒 8.2 万亿次。

基于下代 Vega 架构的 MI25 吸引了全球媒体的目光。但遗憾的是,AMD 并没有给出多少信息,只表示它采用了 Vega 10 核心,与会媒体推断它的浮点运算能力约为每秒 12.5 万亿次。但也有人猜测这是一个双 GPU 核心的加速器卡,就好比 Pro Duo。这样就能解释它的命名为什么是 MI25 :两个核心相加得 25 TFLOPS。这也解释了高达 300W 的热功耗。提醒各位读者,对于这些传言审慎看待。

MI6 和 MI8 预计在明年上半年发货,而 MI25 可能会更迟。另外,与游戏显卡交给 OEM 厂商(蓝宝石、XFX、华硕等)生产的做法不同,Radeon Instinct 旗下的深度学习硬件将由 AMD 自家生产和进行售后维护。这效仿了英伟达的做法,目的是加强与业界的联系和对产品、品牌的控制力。

对于不太了解 AMD 显卡产品线的读者,Fiji 是上一代GPU 架构,Polaris 是当前 RX 480/470/460 所采用的架构,而 Vega 是极有可能应用于 RX 490、新 Fury,或者是 RX 5 系的下一代架构。Vega 又分为 Vega 10 和 Vega 11 两种规格,目前已确定 Vega 10 是采用 HBM2(第二代 HBM 显存) 的高端核心。据悉,传说中即将发布的 RX 490 或者新 Fury 将采用 Vega 10。

AMD 的 GPU 路线图:从 28 纳米工艺到 Polaris 再到 Vega

软件平台 ROCm

在深度学习计算软件方面,AMD 发布了 ROCm。 它全称为“Radeon Open Compute platform”(“Radeon 开源计算平台”), 如同它的名字,是 AMD 为超算和超大规模运算开发的开源 GPU 运算平台,它独立于程序设计语言。AMD 表示:ROCm 是他们把 UNIX 哲学中的选择、极简主义和模块化软件开发带到 GPU 计算的结果。新的 ROCm 允许开发者选择工具和语言运行时( language run time ),甚至进行开发。

如同所有合理的机器学习市场项目, ROCm 能支持多个 GPU,包括同个系统内的 GPU 和多服务器场景。它能利用 RDMA peer-sync 技术简化多 GPU“交火”。ROCm 的设计不但考虑了大规模服务器扩展,还内置了编译器(compilers)、语言运行时和对 CUDA 应用的支持。

另外,AMD 还为深度学习开发了 MIOpen 库,以充分利用 GCN 架构。MIOpen 与 C++ STL, NCCL 处在同个层级,它的功能是连接程序设计语言和 ROCm 平台,成为类似 Caffe 和 TensorFlow 的通用架构。

MIOpen 的定位,最下层是 ROCm。中间是 MIOpen、 C++ 、STL、NCCL 等,最上层是 Caffe 和 TensorFlow 等框架

AMD 宣称,有了 MIOpen, MI8 加速器的性能相当于英伟达泰坦 X (Titan X Pascal), 而 MI25 更是超出后者 30% 之多。

左: MIOpen 与基于 GEMM 的卷积对比。右: 两代泰坦与 MI8、MI25 在 MIOpen 下性能对比。

看来,这次 AMD 进军机器学习计算市场是认真的。未来,AMD 的愿景应该是,MI 系列硬件加速器、ROCm 软件平台和基于 Zen 的 32 核以及 64 核服务器 CPU 三者合力,为超算客户提供一整套基于 AMD 产品线的解决方案。但相比在 AI 领域经营已久的蓝、绿两厂,AMD 根基薄弱、资源有限,而且入场时间已经极大落后。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
Keil5(MDK5)在调试(debug)过程中遇到的问题