DPU打破主从运算架构　提供新的机器训练模-EDA365

半导体制造 > 半导体生产 > 详情

DPU打破主从运算架构　提供新的机器训练模

发布时间：

标签:
AI
DPU

成立7年的AI新创公司Wave Computing日前在Hot Chips大会上介绍了该公司研发的多核架构资料流处理器(Dataflow Processing Unit；DPU)，号称在神经网路训练速度方面可达GPU加速器的1,000倍，该公司技术长Chris Nicol更认为资料流架构是训练高效能网路最有效的方式。

根据The Next Platform报导，Nicol在应用多核策略解决问题方面拥有丰富的经验，不仅曾协助澳洲最大的资讯及通讯科技研究机构NICTA，也成立了贝尔实验室共同研发最早的多处理器系统单晶片。 Nicol认为未来大规模的训练迟早会移出资料中心改在边缘执行，彰显DPU元件的潜在价值。

Wave Computing发表的DPU晶片具有16,000个处理元件、8,000个以上的运算单元以及独特的自定时机制，使用粗粒可重组式架构(coarse grained reconfigurable architecture)，运行频率为6.7GHz，在没有资料通过时，DPU会进入休眠状态。 DPU可以看作是FPGA与多核处理器的混合体，能处理数千个元件的静态资料流图排程。

Nicol表示，目前异质运算的定义有个问题，也就是主控都在CPU上执行，加速器必须等待CPU下达指令，而Wave Computing希望彻底改变这样的架构。 Nicol指出，新的加速器架构(尤其是GPU)在载入核心(kernel)以及使用微控制器在执行期移出与移入程式时都会产生延迟问题，而一个去除CPU的架构可以在卸载模式中得到更多性能效益。

Nicole指出，深度学习实际就是在深度学习软体上编程的资料流图，在类似Wave这种可以在执行期组成资料流图的处理器上运行，而这样的工作流程产生了用来训练网路的资料流图。举例来说，系统会在执行期从TensorFlow取得资料流图，然后直接将它转换成不需要CPU就可执行的资料流图，然后再映成到Wave的资料流晶片上。

Nicol表示，这是一个粗粒可重构阵列，有点类似空间运算(spatial computing)，当程式编译为多处理器核心时，仍然需要将该程式分区，这也是多核晶片的问题所在，而开放式运算语言(OpenCL)并无法提供解决之道。 Wave有自己的空间编译器可以排程、规定路线、将软体映成在其紧密耦合的互连处理器架构上，这样会比使用暂存器速度更快。

尽管这些新架构非常令人注目，但GPU的软体生态系统在机器学习工作负载已十分健全，超大规模资料中心是否愿意容忍风险，导入一个完全不同的训练模式，还是由他们自己决定。

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』