×
嵌入式 > 技术百科 > 详情

天河三号超算较上代实现了200倍性能提升,这家国产芯片厂商到底做了什么?

发布时间:2020-06-22 发布时间:
|

为期三天的第二届世界智能大会已经结束,此次中国国家超算天津中心对外展示了中国新一代百亿亿次超级计算机“天河三号”原型机,这也是该原型机首次正式对外亮相。

此次展会所亮相的原型机由组机柜组成,每组机柜高2米左右,通身黑色,机身上嵌有蓝绿两条醒目的彩条

这次在天津中心展出的只是原型机。据悉天河三号实机将在2020研制成功,官方称相比于天河一号运算能力将提高200倍,存储容量则提高100倍。如果这里指的是持续性能,算下来天河三号将达到惊人的150亿亿次左右。自主天河高速互连架构、自主麒麟操作系统以及国产飞腾处理器。

天河三号是继神威太湖之光之后第二台全面搭载国产自主芯片的超算平台。回溯前两代天河系列超算,我们会发现,中国在自主服务器芯片领域有了长足的进步。

首先天河一号A采用Intel X5670六核处理器搭配NVIDIA加速卡,峰值双精度计算速度每秒1.34亿亿次、持续计算速度每秒0.77亿亿次。它是我国第一台千万亿次超算,运算能力目前已经饱和。

天河二号改用Intel Xeon E5-2692十二核处理器+Xeon Phi 31S1P协处理器,性能提升到峰值5.49亿亿次、持续3.39亿亿次,目前位列世界第二。

由此可见前两代天河系列超算都是在算力上的超前还是沾了国外厂商Intel的“光”。

不过,神威太湖之光的面世,国产超算平台终于开始全面应用国产自主研制的处理器,神威太湖之光采用申威SW26010 ,峰值性能12.54亿亿次,持续性能9.30亿亿次,已经应用于各行各业。

而这次天河三号搭载也是全面采用国产自主处理器品牌飞腾处理器,那么这家名为飞腾的国内芯片厂商到底是家什么样的企业呢?

天津飞腾信息技术有限公司作为国内芯片知名设计企业,总部位于天津滨海高新技术产业开发区,在北京、广州等地均设有运营、销售和研发中心。其在2015年的Hotchips 会议上推出了代号为Mars(火星)的多核处理器,被当时有些科技媒体称为:“媲美Intel公司最顶级服务器芯片的性能。是目前ARM阵营最强大的处理器”而引起巨大争议。这款拥有64 FTC661处理器核心处理器也就是后来的FT-2000。

一提到国产芯片,国人最先想到一定是龙芯,龙芯并非最早的国产处理器,也不是最成功的国产处理器,但是要说到曝光率最高的国产芯片当属龙芯无疑,龙芯发展至今,从龙芯1到龙芯3已经发展了三代龙芯处理器芯片,衍生多个版本,但大多数只活在了中科院给外界展示成果的展台上,商业化应用几乎没有,跟不上主流性能,往往新的型号芯片一出来就已经落后了。虽说和申威、飞腾都属于国家队,后两者仍处在国家芯片第一梯队,而龙芯虽名声在外,但已和第一梯队无缘。

而作为一家军工背景的企业,天津飞腾并不像有着很浓学术氛围背景的中科院龙芯处境这么尴尬,和申威一样自诞生之日期就有着很强目的性。所以两者也很成功,

特别是申威不论性能还是架构设计都有独特之处,申威处理器不仅有硬件研发,还在编译器及Linux操作系统(神威睿思)上做了创新,神威太湖之光有三项应用入围戈登贝尔奖。

而飞腾不光在天河三号全面应用之外,飞腾处理器早在天河一号和天河二号上就有了用武之地,从公开资料来看,作为飞腾第三代处理器产品基于Ultra SPARC架构,具有8核64线程的FT-1000被用在天河一号的节点网络上,之后同样基于SPARC架构的FT-1500,共有4096颗被被用在天河二号超算上做节点前端处理器使用。

到了FT-1500A虽然名字跟上面FT1500类似,但实际上没什么关系了,因为它的架构由SPARC架构变成了ARM 64位,使用的是28nm工艺。据天津飞腾总经理谷虹介绍,FT-1500A系列处理器是64位通用CPU,兼容ARM V8指令集,采用国际先进的28nm工艺流片,具有高性能、低功耗等特点,

FT-1500A有4核心和16核心两个版本,集成4个FTC660处理器核心版本面对用于轻量级服务器和桌面及便携终端领域,可以胜任网络服务、邮件服务、办公、上网、文字处理等、较为简单的任务处理。集成16个FTC660处理器核心版本则应用于高吞吐率服务器领域,如办公业务系统服务器、互联网/云计算服务器等,可以胜任网络服务、事务处理、数据中心存储、数据库、网络交换等复杂去热任务。关键技术国内领先,可实现对Intel中高端“至强”服务器芯片的替代。

随后飞腾在2016发布FT-2000以及尚未发布的升级版FT-2000Plus,

FT-2000采用28nm制造工艺,可被用于超算计算节点和高性能服务器。集成了64个FTC661处理器核。工作主频1.5GHz—2.0GHz。支持16个DDR3-1600存储控制器,可提供204.8GB/s访存带宽。最大功耗100W,据飞腾官网介绍,在ARMv8指令集兼容的现有产品中,FT-2000/64在单核计算能力、单芯片并行性能、单芯片cache一致性规模、访存带宽等指标上处于国际先进水平。并且其自定义的扩展接口不但可以用来扩展缓存容量和存储能力,还可以用来外接FPGA等加速器类专用芯片,实现异构计算,这样为后来FT-2000可扩展AI处理模块创造先决条件。

最新的FT-2000Plus采用了台积电16nm制造工艺,主频为2.0GHz—2.4GHz。

按理说作为FT-2000的升级版本FT-2000 Plus应该应该全面碾压前代,但专业测试机构在对FT-2000 Plus进行 SPEC测试中发现某些子项分数反而相比FT-2000有所下降。其实出现这种情况并不奇怪,为了提高集成度,抛弃了L3cache,将DDR4内存控制器集成到了片内

通过提高集成度可以方便主机厂,降低开发FT-2000 Plus整机产品的成本。由支持可扩展DDR3存储控制器改为片内集成DDR4内存控制器,再加上使用了更好的台积电16nm制造工艺之后主频可以最高稳定到2.4G,使FT-2000 Plus相对于FT-2000还是有不小的性能提升,能够满足高端服务器和超算主控CPU的性能要求。

目前,飞腾已经完成FT-2000plus服务器CPU的研制工作,飞腾公司的合作伙伴正在积极研发相应的整机产品。虽然FT-2000Plus在单核性能上和Intel还存在一定差距,但在多核性能上,已经达到Intel服务器CPU E5 主流产品的水平。

国防科大目前在天津中心亮相的超算天河三号,其原型机的CPU或将采用FT-2000或其后继产品作为主控CPU。考虑到在天河二号上,国防科大已经用自主研发的加速器矩阵2000取代Intel的Xeon Phi计算卡。天河三号采用的处理器处理器自然不难猜测应该就是FT-2000Plus。并且,从今往后,天河系列超算也将和神威系列超算一样,彻底告别国外CPU或加速器,实现芯片的全国产化。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
Semtech的LoRa技术携手Chipsafer将牧场连接至云端