×
嵌入式 > 嵌入式开发 > 详情

IBM四核7nm AI加速器芯片可让训练/推理效率大增

发布时间:2021-03-24 发布时间:
|

最近,IBM透露了其全球首个四核的发展AI加速器采用7nm MOSFET技术。IBM开发的新芯片使用超低精度混合8位浮点算术单元在训练过程中使用,在推理(即执行AI)过程中使用4位。

在典型的计算系统中,增加位宽可以提高计算能力并访问更多内存。但是,AI通常容忍低精度,并且系统的位宽越大,所需的内存就越多。因此,人工智能系统的开发人员经常尝试尽可能地减少位宽,而IBM的新型四核AI加速器将推理精度降低到了4位。

最终的四核AI加速器实现了80%以上的利用率在训练期间(即正在使用多少处理器),以及在推理期间超过60%,明显优于通常低于30%的GPU性能。此外,IBM还集成了独特的电源管理系统,该系统通过在执行大量计算任务时降低时钟频率来降低加速器的功耗。

对比结果显示,IBM 新款 7nm 高能效 AI 芯片的性能和能效,不同程度地超越了 IBM 此前推出的 14nm 芯片、韩国科学院(KAIST)推出的 65nm 芯片、阿里巴巴旗下芯片公司平头哥推出的 12nm 芯片含光 800、NVIDIA 推出的 7nm 芯片 A100、联发科推出的 7nm 芯片。

IBM 新款 7nm 高能效 AI 芯片支持 fp8、fp16、fp32、int4、int2 混合精度。

在 fp32 和 fp8 精度下,IBM 新款高能效 AI 芯片的每秒浮点运算次数,分别达到16TFLOPS 和 25.6TFLOPS;运算密度分别为 0.82TFLOPS/mm^2 和 1.31TFLOPS/mm^2;能效比分别为 3.5TFLOPS/W 和 1.9TFLOPS。

在 int2 和 int4 精度下,IBM 新款高能效 AI 芯片的运算密度分别为 3.27TOPS/mm^2 和 5.22TOPS/mm^2;能效比分别为 16.5TOPS/W 和 8.9TOPS/W。

对比之下,IBM 此前推出的 14nm 芯片在 fp32 和 fp8 精度下的每秒浮点运算次数,分别为 2TFLOPS 和 3TFLOPS;在在 fp32 精度下的能效比为 1.4TFLOPS/W。

另外,在 7nm 芯片阵营中,NVIDIA A100 GPU 在 fp16 精度下的能效比为 0.78TFLOPS/W,在 int4 精度下的能效比为 3.12TOPS/W,均低于 IBM 新款高能效 AI 芯片。

IBM 官网文章写道,其新款 AI 芯片之所以能够兼顾能效和性能,是因为该芯片支持超低精度混合 8 位浮点格式((HFP8,hybrid FP8)。这是 IBM 于 2019 年发布的一种高度优化设计,允许 AI 芯片在低精度下完成训练任务和不同 AI 模型的推理任务,同时避免任何质量损失。

据悉,目前 IBM 将超低精度混合 8 位浮点格式用于训练、超低精度混合 4 位浮点格式用于推理,并开发了数据通信协议,以提升多核心 AI 芯片上不同核心间的数据交换效率。

据 IBM 官网文章,自 2015 年起,该公司每年将芯片的功耗性能提升 2.5 倍。这背后,IBM 致力于实现算法、架构、软件堆栈等各方面的创新。

在传统处理器上运行AI任务非常耗电,对内存的要求很高,并且整体效率极低。然而,事实证明,在受影响的行业所有领域中,日常应用中的AI应用都具有不可思议的优势。

尽管固定计算系统可以继续负担在高性能CPU和GPU上运行AI算法的费用,但嵌入式世界通常不得不依靠基于云的计算来执行AI算法。 这种远程计算的结果使人们越来越关注隐私,对互联网基础架构的额外压力以及请求和响应之间的长时间延迟。

诸如IBM开发的AI加速器,不仅允许嵌入式应用程序在本地运行AI,而且能够高效地运行。此外,在本地运行AI通过将潜在的敏感信息保留在设备本地来改善对隐私的关注,并减少延迟。AI加速器的使用还将导致低功率设备中的实时AI响应,这是当前无法实现的。



『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
STM32的窗口看门狗