×
嵌入式 > 技术百科 > 详情

牛逼!英特尔用神经网络芯片反推AI技术

发布时间:2020-06-17 发布时间:
|

在今年的英特尔AI峰会上,该芯片制造商展示了其第一代神经网络处理器(NNP):用于训练的NNP-T和用于推理的NNP-I。两条产品线现在都已投入生产,并已交付给最初的客户,活动中出现了其中的两家,分别为Facebook和百度,以赞扬新的切片机。

专用的NNP设备代表了英特尔迄今为止对AI市场的最深推动,挑战了Nvidia,AMD和一系列针对专门为人工智能部署专用芯片的客户的初创公司。就NNP产品而言,该客户群是由超大型公司(如Google,Facebook,Amazon等)固定的,这些公司的业务现在都由人工智能提供支持。

英特尔公司人工智能产品事业部副总裁兼总经理Naveen Rao在AI峰会上致开幕词时表示,该公司的AI解决方案预计将在2019年产生超过35亿美元的收入。不要将其细分为特定产品的销售,大概它包括将AI注入硅片的所有产品。当前,它几乎涵盖了从Xeon和Core CPU到Altera FPGA产品,Movidius计算机视觉芯片以及现在的NNP-I和NNP-T产品线的整个英特尔处理器产品组合。(显然,该数字仅包括Xeon和Core收入中实际上由AI驱动的部分。)神经网络处理器为英特尔提供了针对数据中心的首个专用AI产品,该空间目前主要由Nvidia的Tesla GPU,Intel本身的Xeon CPU以及较小程度上来自Intel和Xilinx的FPGA主导。

Rao告诉听众,尽管AI市场并非单一的,需要基于不同的性能要求和业务需求的各种解决方案,但高端对专用AI处理器的需求也非常迫切。为了支持该论点,Rao指出了神经网络模型的日益复杂性,根据参数数量,神经网络模型每年的增长速度约为10倍。Rao说:“这是我从未见过的指数式增长。”他补充说,这种增长速度超过了他所知道的每一次技术转换。为了应对这种增长,用户不仅必须依靠能够非常快速地执行相关计算的专用处理器,而且必须能够以横向方式使用它们。简而言之,这就是NNP产品线的商业案例。

三年前,英特尔收购了Nervana Systems时,甚至没有设想到推论线NNP-I。那时,饶和他的团队正在开发一种训练芯片,该芯片只是在侧面进行推断。它不被认为是值得专业化的东西。当然,现在,推理已被普遍认为是一种独特的工作负载,它对低延迟,低功耗和特殊数学有其特殊的需求。

第一代推理处理器NNP-I 1000采用Intel的10纳米工艺实现,根据SKU的不同,其功耗在10瓦至50瓦之间。它由12个推理计算引擎和2个IA CPU内核组成,这些内核通过高速缓存一致性互连挂钩。它可以执行混合精度数学,特别强调使用INT8进行的低精度计算。

NNP-I 1000提供两种产品:NNP I-1100(包含一个NNP-I芯片的12瓦M.2卡)和NNP I-1300(由以下设备供电的75瓦PCI-Express卡)两个筹码。NNP I-1100提供高达50 TOPS,而NNP I-1300提供高达170 TOPS。

Rao声称,一旦将功率考虑进去,就根据MLPerf基准测试,就每瓦性能而言,NNP-I将成为推理领导者。他说,它还提供了非凡的密度,“您可以将每秒最多的推论推入单个机架单元中。”通过英特尔的测量,它还提供了Nvidia T4 GPU的计算密度的3.7倍。结果,Rao说:“我们可以运行更大的模型,更复杂的模型,并并行运行数十个模型。”

为了支持数据中心(尤其是超大规模数据中心)所需的可伸缩性级别,英特尔已经开发了与此类环境相关的解决方案堆栈。特别是,该公司开发了使用Kubernetes挂钩将NNP-I应用程序容器化的软件。它还提供了支持功能即服务(FaaS)模型的参考软件堆栈,该模型是基于云的推理的新兴范例。

Facebook的AI主管Misha Smelyanskiy加入Rao,解释说其Glow机器学习编译器已移植到NNP-I硬件上,这暗示着这家社交媒体巨头已开始至少在其某些数据中心中安装这些设备。Smelyanskiy没有提供有关这些部署范围的任何详细信息,但确实提到了新硬件可以提供的一些关键推理应用程序,包括照片标记,语言翻译,内容推荐以及垃圾邮件和虚假帐户检测。Smelyanskiy解释说,这些针对Facebook的专用ASIC的价值在于,它们“使ML工作负载的执行具有高性能和高能效性。”

NNP-T 1000 ASIC完全是另一种芯片,提供了更大的计算能力。它由多达24个Tensor处理核心(支持FP32和bfloat16数字格式),55 MB至60 MB的片上SRAM,32 GB的高带宽存储器(HBM)和片间链接(ICL)组成16112 Gb /秒的通道数ASIC以两种尺寸形式提供:PCI Express卡(NNP-T 1300)或夹层卡(NNP-T 14000)。PCI-Express卡的最大功耗为300瓦,而Mezzanine卡的最大功耗为375瓦。

ICL链接可用于跨越系统的多个级别,用作跨节点中的卡,机架中的节点和POD中的机架的无缝连接结构。一个节点最多可以构建八个卡,并且可以连接这些卡以构建多机架POD。在AI峰会活动上,他们演示了一个带有480个NNP-T卡的10机架POD,无需使用开关。结构是使NNP-T平台能够大规模使用以训练这些数十亿参数模型(在合理的时间内)的关键设计元素。Rao解释说:“横向扩展可能是培训中最重要的问题,任何新的培训体系结构都必须考虑这一点。”

借助32卡NNP-T机架,英特尔在标准图像分类模型ResNet-50和自然语言处理的高级模型BERT上展示了95%的缩放效率。

百度是NNP-T芯片的早期采用者,并且一直与英特尔在硬件和软件方面进行合作。百度AI研究学者肯尼斯·丘奇(Kenneth Church)表示,软件工作着重于为Paddle-Paddle实现一个NNP-T端口,Paddle-Paddle是一种开源深度学习平台,已在百度广泛使用,在中国有150万开发人员使用。在硬件方面,该公司正在使用NNP-T为其X-Man 4.0 AI超级计算机供电,该超级计算机每机架使用32个设备。丘奇说,该系统已经在他们的实验室中运行工作负载。他补充说:“我们计划很快在百度的基础架构中使用它。”

所有这些驱动因素是神经网络复杂性的指数增长。Rao认为,当今最大的模型包含多达1000亿个参数,代表了该行业的拐点。在这个级别上,这些模型已经开始做更多的工作,而不仅仅是从数据中提取有用的信息。他们现在可以开始充分理解该数据以将其转化为知识。据他说,这意味着信息将必须应用于过去的经验,并在这种情况下推动行动。听起来与人类的行为相似。正如他所承认的那样,人脑必须​​处理3万亿至500万亿之间的参数,而这仅需20瓦即可完成。“今天,我们真的只是在摸索,” Rao说。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
实时控制.安全.如何加速实现未来工厂落地?