×
嵌入式 > 技术百科 > 详情

寒武纪推出边缘AI处理器思云220及加速卡

发布时间:2020-06-15 发布时间:
|

在第21届高交会上,寒武纪正式发布边缘AI系列产品思元220(MLU220)芯片及M.2加速卡产品。思元220标志寒武纪在云、边、端实现了全方位、立体式的覆盖,对寒武纪在AI边缘计算市场的愿景,公司副总裁刘道福在现场做了解读。


寒武纪副总裁刘道福


为什么边缘侧越来越重要?

刘道福表示,随着5G时代的到来,边缘计算越来越受到关注,数据在本地(比如网关等)进行汇集、处理,相比数据中心或者说云计算,边缘计算具有几点优势和互补性,包括:第一,大幅降低传输成本,尤其是针对电力、能源、工业等网络条件并不好,或通讯基础设施改造成本很高的地方,边缘的数据通过边缘决策,或者仅将部分关键有效信息传回云端集中处理,都可以大幅降低传输成本。第二,可大幅降低延时,边缘计算往往具有实时性要求,所以要进行实时决断,在这方面要胜过云计算。第三是保护数据隐私和安全,由于不接触大数据和云计算,所以可确保原始数据的绝对安全性,减少数据泄漏。

刘道福强调道,人工智能在边缘计算中处于非常核心的地位,这是由于边缘计算需要处理传感器的数据,而传感器的数据种类往往是非结构化的,比如视频,图像和语音,很难直接用于控制和决策,因此需要边缘人工智能计算将非结构化的数据结构化,从而用于控制和决策。

边缘AI芯片思元220横空出世

对于边缘人工智能计算市场和特点,寒武纪非常重视,也为此专门设计了针对边缘人工智能计算的芯片,这就是思元220,采用了寒武纪最新一代处理器架构,实现了高性能和低功耗的统一。思元220的功耗仅10W,性能最大可达到16 TOPS@8位定点,以及32TOPS@4位定点。刘道福强调,思元220之所以瞄准8-30T计算市场,是因为这一范围内的市场产品并不多,目前AI产品主要集中在1-4TOPS的终端侧或者上百TOPS的云端,边缘侧结合低功耗与高性能的产品难以开发。

刘道福表示,新一代寒武纪人工智能处理器架构,共有六大方面的提升与优化:

首先,是单核性能提升,通过重新设计运算电路、运算指令的能效大幅提升,单核算力提升8倍;

第二,增加了数据压缩和解压缩指令,大幅节省内存容量和访存带宽;

第三,指令集扩展近百条,功能更强大更灵活;

第四,增加int4和int16的运算指令,可根据需求灵活选择,在高性能的场景使用更高性能的int4,在高精度的场景可使用更高精度的int16;

第五,增加了共享的软件可管理的共享缓存,可以软件直接控制在处理器核之间进行通讯,从而大大优化多核性能;

第六,为了方便处理复杂数据,增加了灵活的转置等指令,可以支持各种复杂的数据预处理。

思元220集成了4核ARM A55,主频为1.5GHZ,采用LPDDR4X的内存接口。外设方面包括PCIe3.0 1X4 or 2X2, SDIO3.0, eMMC 5.1, 双千兆以太网口,以及包括I2C, UART, SPI, GPIOs, PWM等通用接口。

思元220采用台积电16nm工艺,FCCSP的封装,尺寸仅仅15mmx15mm。


性能详细指标


U盘加速棒诞生


刘道福表示,思元220首先会以加速卡的形式推广,尺寸为2.2*8cm,只有一个U盘大小,系统功耗为8W,售价为1999。


内置思元220的加速卡


加速卡采用标准m2接口,可快速集成到边缘设备中,目标应用包括:电力(无人巡检,管廊机器人),工厂(缺陷检测),金融(表单OCR,保险智能定损),交通(各种交通轨道的异物检测),教育(智慧教室,智慧老师,通过人工智能数字化分析学生学习效果,方给老师教学方案提供知道),物流(无人物流车,站点用于检测暴力分拣),医疗(各种传感数据检测和诊断),零售(VIP识别,生鲜管理,购物识别,无感支付)。

除了加速卡方便用户开发之外,寒武纪也在软件方面重视,推出了丰富的软件生态,方便开发者使用。

刘道福指出,寒武纪的云端、终端及边缘芯片都采用了统一的处理器架构和指令集,以及统一的软件栈,这就意味着三大领域可以共享生态,共同促进。云端提供了完整的开发、调试和优化工具,开发出来的软件也可以方便快速的部署到终端和边缘,解决终端和边缘开发调试难题。同时,终端和边缘通过积累客户和开发者,还会反哺云端生态,实现云、边、端的繁荣。

如今,寒武纪的软件栈已经在云端进行了两代产品的迭代,早已实现了商业落地。

“为了支撑更多边缘ai应用场景的落地,我们提供了具有竞争力的价格,为得就是真正助力普惠AI,加速更多行业的人工智能落地。”刘道福说。




『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
看业界大佬们如何看待未来趋势!智能制造?健康医疗?新流通?