GTC大会，黄仁勋：大兄弟，6万元的显卡和250万元的主机想了解一下不？-EDA365

嵌入式 > 技术百科 > 详情

GTC大会，黄仁勋：大兄弟，6万元的显卡和250万元的主机想了解一下不？

发布时间：

北京时间，27号凌晨0点，英伟达的图形科技大会（GTC，GPU Technology Conference）准时在美国圣何塞英伟达总部召开。作为一年一度英伟达技术盛会第十个年头，今年的大会，似乎有点“不一样”。

当然，今年的GTC大会再怎么不一样，大会开头“唠嗑式”开讲依然还是属于黄教主的，似乎，每逢技术性的大会，黄教主的演讲激情犹如干柴遇到烈火，瞬间“爆燃”起来，这次也一样，原计划2个小时的演讲，结果拖堂到将近3个小时。在这3个小时的演讲中，黄仁勋谈到了新一代显卡QuadroGV100 ；谈到了性能恐怖的DGX-2超算；还有落地实现了研究已久的自动驾驶，而唯独人们最关注的新架构和主推的游戏显卡，却只字未提。这一点黄世勋似乎变了。那么老黄口中QuadroGV100 和DGX-2到底是何物呢？

专业级显卡新“魔兽”

对于翘首以盼所谓的新一代“GeForce 20系”游戏显卡网友来说，这次GTC大会可能会让他们略感失望，新的游戏显卡果然没有在这个注重AI、深度学习的图形峰会上公开。当然，NVIDIA 还是推出了两颗新“魔兽”， 基于GV100核心的Tesla V100新品和Quadro GV100。

对于Tesla V100，其实这款显卡是发布于2017年度的GTC大会，不过这一次，由原先16GB 显存升级到了32GB 显存，要说，升级要感谢的还是供应商三星和SK海力士，单颗HBM2的容量从4GB提升到了8GB，于是带来在面积不改变的情况下，容量翻番，换言之，简单替换下就可以了。

不过，英伟达的功力也有，那就是主频/热设计功耗等都没有因此增加，保持一致，想升级的话可以傻瓜式地替换。

当然，对于这样的升级，大部分网友会认为，这算是NVIDIA的“份内”事，毕竟其竞争对手AMD早在三年前就已出货32GB GDDR5显存的FirePro S9170了。所以Tesla V100并没有什么好说的。

而对于Quadro GV100 ，黄仁勋在这场技术大会上，开讲之后还不到10分钟，就拿出这款12nm制程基于深度学习技术的专业级显卡，可见黄教主迫不及待展示Quadro GV100强大性能的“激动”心情，也是对自家产品的优势自信满满。

新的GV100拥有5120个CUDA核心，32GB HBM2显存（使用双向NVLink技术可扩展至64GB），能够提供高达每秒7.4万亿次的双精度浮点运算性能以及每秒14.8万亿次的单精度浮点运算性能和每秒118.5万亿次的深度学习浮点运算性能。

Quadro GV100支持NVlink 2.0（NVlink 技术就是Nvidia研发的能够在GPU-GPU以及GPU-CPU之间实现高速大带宽直连通讯的快速互联机制，其实这里的 Nvlink 2.0就是将在下面提到的DGX-2所用到的Nvlink Switch技术），也特别支持了RTX ray-tracing technology（实时光线追踪技术），这项技术能精准的处理拟真光照、反射与阴影效果，是一项提供逼真度远高于传统着色技术的“黑科技”。号称可以为游戏带来逼真现实场景般的画质，并且相比于传统的渲染技术渲染场景特效需要数小时的时间，英伟达的光线追踪技术可以达到实时渲染的强大能力。这个对于动画渲染和制作工作室而言，摒弃庞大的主机转而使用效能Quadro GV100效果肯定更为理想。这也是为什么英伟达敢称自己的这项成果是“自从约20年前推出可编程着色器以来，计算机图形学的最大进步。”

当然，强悍的性能带来的是不菲的价格，会上，黄教主曝出Quadro GV100 售价为8999美元，接近6万元人民币。相比之下，之前发布的TITAN V完全可以用性价比惊人来形容。当然性价比高不高，还得看土豪们的意见喽。

DGX-2：GPU堆叠出来的性能“怪兽”

说到GTC大会最引人瞩目的亮点，当属DGX-2无疑，这是由16颗Tesla V100 GPU组成，被英伟达称为“The World's Lagest GPU”，可以说就是个庞大的显卡集群，DGX-2由原本的DGX-1升级而来，将DGX-1中原有的P100 GPU换成了性能更加强大的V100 GPU，同时：又加了几颗Tesla V100 GPU，共计16颗GPU堆叠出了DGX-2这样的小型“超算”每块Tesla V100计算卡显存为32GB，故整个DGX-2一共拥有512GB HBM2显存。

那么集成了这么多的GPU的DGX-2，真的只是靠GPU简单的堆叠出来的吗？答案：肯定不是，那么该如何让它们“化身”为一颗GPU发挥出“集体”力量呢，在这里就少不了前面提到的Nvlink Switch 技术，正因为这项技术，DGX-2中的16颗GPU之间都能够直接1对1连接传输，实现了300GB/s芯片间传输效率(传统PCIe的12倍)，形成一个总带宽高达14TB/s的通道。用黄教主的话来说，如果以1GB一部电影来计算，14000部电影可以在1秒钟内传输完成。

同时为了发挥出显卡的深度计算性能，整个集群配备了1.5TB内存以及30TB的NVMe SSD存储空间，深度计算能力（Tensor算力）达到了惊人的2PFLOPS（FLOPS是指每秒所执行的浮点运算次数，亦称每秒峰值速度，1PFLOPS（PetaFLOPS）等于每秒千万亿（=10^15）次的浮点运算）。被众媒体称为“小超算”毫不为过。

在惊讶于DGX-2性能强悍的同时，英伟达在DGX-2上所采取的新策略或许更值得人们思考：并行架构先天拥有优秀的扩展性，英伟达似乎在传统的GPU架构、芯片制程之外找到了一个延续性更强的性能增长路线。

当然从另外一个方面来讲，通过数量的叠加，设备的性能的确可以快速增长，但如何实现数块GPU之间的大量数据吞吐、同时保证这些新添加的数据传输能力不会造成太高的成本、以及更多的功耗，将会是这一种路线的必然面临的挑战。

DGX-2 性能相比前代Nvidia DGX-1是其10倍，当然超强算力下，带来的是惊人的功耗，功耗高达一万瓦特。在介绍售价方面，黄教主还当场为客户“砍起了价”，黄仁勋表示现场展示用的这套实验产品实际上价值250万美元，然后先放出了一个150万美元的售价，在最后一秒直接自己“砍到”了39.99万美元，价值将近250万元人民币，价格“一波三折”一路下砍，黄教主还是很实诚嘛。不过即使去掉虚高的价格，250万元主机设备对于一般人来说仍是可望而不可及的“奢侈品”，这或许只有那些混迹于区块链的“挖矿”的大佬土豪们才玩的起吧。

当然，新DGX-2性能是毋庸置疑的，是时候，可以把黄教主那句“买的越多，省得就越多”改为“买的越贵，省的更多”了。

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』