深度学习演算法接近线性微缩效率-EDA365

半导体制造 > 半导体生产 > 详情

深度学习演算法接近线性微缩效率

发布时间：

IBM Research在深度学习演算法取得最新突破，据称几乎达到了线性加速的最佳微缩效率目标…

IBM Research发表深度学习(deep learning)演算法的最新突破，据称几乎达到了理想微缩效率的神圣目标：新的分散式深度学习(DDL)软体可随着处理器的增加，实现趋近于线性加速的最佳效率。

如图1所示，这一发展旨在为添加至IBM分散式深度学习演算法的每一个伺服器，实现类似的加速效率。

IBM研究人员兼IBM Research加速认知基础设施部门总监Hillman Hunter认为，其目标在于“将与深度学习训练有关的等待时间，从几天或几小时减少到几分钟或甚至几秒钟。”

Hunter在一篇有关这项深度学习发展的部落格文章中指出，“最受欢迎的深度学习架构开始扩展到伺服器中的多个绘图处理器(GPU)，而非使用GPU的多个伺服器。”IBM的开发团队“为连接至数十个伺服器的上百个GPU加速器所需的庞大、复杂运算任务，编写了自动化与最佳化其平行任务的软体与演算法。”

IBM声称，使用开放源码的Caffe深度学习架构，可将最多达256个Nvidia Tesla P100 GPU添加至单一伺服器，最终达到了95%微缩效率的测试结果。这一测试结果可用于影像辨识学习，但预计也适用于类似的学习任务。IBM在50分钟的训练时间内达到了接近线性的微缩效率。在相同的训练数据集时，Facebook Inc.先前曾经在60分钟的训练时间内实现89%的效率。

而在ImageNet-22k的数据组合下，IBM声称可在7个小时、750万张影像的训练中，达到了33.8%的验证精确度；在相同的条件下，微软(Microsoft Corp.)原先的记录是在10天训练中达到29.8%的准确率。IBM的处理器——PowerAI平台，可支援64节点的Power8丛集(加上256个Nvidia GPU)，提供超过2PFLOPS的单精度浮点性能。

该公司正为PowerAI平台用户免费提供其分散式深度学习套件，同时，还为第三方开发人员提供各种应用的编程介面，让他们能选择与其应用最相关的底层演算法。

关键字：微缩效率

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』