英伟达公布了 2021 财年第三季度财报:第三季度营收 47.26 亿美元,同比增长 57%,比上一季度增长 22%。其中,游戏收入为 22.7 亿美元,同比增长 37%;数据中心营收达到 19 亿美元,比去年同期增长 162%。

 

用黄仁勋的话来说,英伟达在全线发力,无论是游戏、数据中心,还是总营收,都达到了创纪录的新高。用 AI 持续渗透,提升行业门槛,是他在核心领域的发力点。正如在游戏领域,英伟达凭借 RTX 已经让光线追踪成为游戏的新标准。
 

图源:AlphaStreet

 

从营收结构看,游戏业务仍是这一季度的最大赢家,占总营收 48%。在上一季度,营收首次超过了游戏的数据中心业务,这一季度又被游戏反超,但营收仍然保持增长,达到了创纪录的 19 亿美元。

 

支柱业务齐头并进、你追我赶,应该是所有老板的夙愿吧。如何能实现如此可观的收入?可以说,Ampere(安培)架构是英伟达今年最大的功臣。

 

黄仁勋表示,全新的 NVIDIA GeForce RTX GPU 提供了有史以来最大的代际提升,需求势不可挡。今年 9 月,英伟达发布了最新的 RTX30 系列游戏显卡,让营收有了大幅提升。财报显示,全新的 RTX 显卡促使英伟达收入同比增长 20%。这款显卡正是基于最新安培架构、打造的全新 RT Core、Tensor Core、DLSS 及流式多处理器,可带来逼真的光线追踪效果和先进的 AI 性能,性能是基于 Turing 的上一代产品的 2 倍。

 

五代架构更迭,Ampere 攀上巅峰

 

在图形运算平台,英伟达已耕耘超过 20 年。回顾最近五代架构:从 Kepler 到 Maxwel、到 Pascal、Turing、再到最新发布的 Ampere 架构,从显存技术、规格和支持的软件运算规格、以及支持当下最时髦的 5K、8K、VR/AR 等,不论是用户体验、环境库支持还是性能等,始终在不断更迭,这也是其 GPU 始终引领应用及潮流趋势的主要原因。


在视觉领域,这一代 Ampere 架构最重要的更新就是提供了第二代 RTX GPU。第一代 RTX GPU 基于 Turing 架构,与之相比 Ampere 架构有哪些优势呢?

 

据英伟达中国区高级技术市场经理施澄秋总结,主要有三方面:首先,新一代 SM(流式多处理器)架构最高可以提供 39 TFLOPS 的 FP32 算力;其次,第二代 RT Core 相对于第一代 Turing 架构的 RT Core 最高可以提供 76 TFLOPS 光线追踪算力,并且加入了 Tensor Core,这个张量运算核心是 AI 的主要运算单元;第三,最多可以提供 310 个 Tensor TFLOPS 的算力。

 

基于这三大提升,新一代 Ampere 架构在图象运算或物理模拟中,最多可以提供 2 倍于上一代 Turing 架构的运算性能,主要针对 FP32 方面的精度提升。而在 Turing 架构首次引入的光线追踪运算环境,在 Ampere 架构中进行了第二代 NVIDIA 光线追踪运算核心的优化。主要针对 BVX 算法,比如:带有 Motion flow、阴影功能,或去噪、降音功能。以前很多需要分开处理的步骤,或可能由不同核心处理的步骤,在不同使用周期进行的处理运算,能够大幅将其合并,这样可以提高工作负载效率。例如:电影内容的真实感渲染,或者在某些架构设计的评估及虚拟模型的制作、产品设计等等,都可以通过第二代光线运算核心,得到更高的视觉准确性、更干净、更漂亮的渲染结果,而且还可以提升渲染效率。

 

此外,Ampere 架构还支持稀疏算法以及基于稀疏式的硬件结构,利用稀疏式算法,最高可以将可推理的吞吐量提升 1 倍。而因为 AI 的加持(主要是 Tensor Core),还可以支持图形计算和图形渲染中,基于深度学习的超采样抗锯齿,以及基于 AI 的降噪,或者一些特定应用程序都可以利用 AI 的加持进行图形运算加速。

 

AI 在图形领域找到新的着陆点

 

最新的 Ampere 架构同时适用于计算与图形领域,配置上却各有侧重。计算方面,A100 尽可能多部署了计算核心,即 Tensor Core;图形方面主要是 GA102,在 Tensor Core 的基础上配备了 RT Core。

 

RTX A6000、RTX A40 这两款图形卡和计算卡,分别面向工作站和服务器产品,比上一代都有了长足的进步。据英伟达方面介绍,“以往每一代产品针对上一代都有很大的性能提升,但是这一代尤其突出。”

 

施澄秋介绍,A6000 是一个主动散热产品,针对工作站、服务器或个人用户。和传统的游戏卡比较,A6000 核心数量更多,无论是 CUDA Core、光线追踪还是张量运算核心都更多,显存更大,且尺寸更小,更易于部署。而对于大工作流程、大工作负载也有较大性能优势。例如对于飞机或汽车设计,可以通过计算机模拟风洞环境;再比如飞机总装,在做总装图或总装模拟时,每一个动作、步骤、环节,因为显存不足可能会导致系统主内存和显卡不停地进行数据交换,而使用 RTX A6000 可以大幅节约时间、提升效率;还有疫情时期的分散式办公,来自不同办公地点的员工,可以利用 A6000 以视频会议的方式来分享渲染结果、并进行协同工作,这样能够在很大程度上优化工作流程、提升效率。


 
如今数据中心的工作负载非常大,且在不停扩大,从 AI 到专业可视化,从虚拟图形工作站 GPU 到虚拟数据科学工作站 GPU。这些领域的科学家和工程师也需要利用新的 Ampere 架构 GPU 进行突破,A40 这样的被动散热解决方案,能够最大化提升尺寸、性能和功耗比。无论是基于视觉运算、超算、仿真、虚拟工作站、3D 设计、VR、虚拟生产、光线追踪等,A6000 的所有特性,A40 都可以支持,只不过是把散热方案改成了集群式数据中心适用的被动散热解决方案。也就是说,与 A6000 相比,A40 更适需要“被动式散热方案”的用户。

 

A40 主要基于上一代 RTX 6000 和 8000,比它更轻量化的是上一代 Turing 架构 T4,比它性能更强劲的则是专门用来进行运算的是 A100。简言之,A40 更像是一个混合型选手,既有 AI 运算功能,又有 A100 所不具备的,比如最快的图形性能、光线追踪性能等,还可以虚拟化,并易于部署在数据中心。

 

游戏正对 AI 产生着很大需求,例如场景、动作、运动轨迹等,通过 AI 特性的支持,通过 AI 感知玩家的情绪、身体动作、肢体语言,可以让游戏互动性更强、更有趣味。还有就是对于游戏的设计人员和开发人员来说,有些复杂的大场景需要手工完成,开发周期较长,通过 AI 可以自动生成,且画面、场景更生动。

 

Omniverse 助力全工作流程协作

 

算力的提高之外,英伟达还开放了公测版 Omniverse,这是一个跨软件、跨应用程序的在线合作式 / 分享式总体解决方案平台,无论用户使用什么软件、工具和平台,都能通过 Omniverse 这个入口,帮助分发协调工作、整合工作流程,让所有用户、设计师、科学家和工程人员都在同一个平台上完成分工和协作。

 

例如某个艺术家可能一个人在工作,会用到 MAYA、PS、UE4 等不同应用程序,需要反复保存、转格式,再导入另一个应用程序。借助 Omniverse,就无需在每一个步骤之中进行导入和导出,每一个应用程序都是实时状态,节约了大量冗长繁琐的时间。

 

值得强调的是,英伟达在 Omniverse 平台上使用的 USD 非常关键。它是一个开放的 API,支持复杂的场景贴图,专门在各式各样的场景、千差万别的应用程序之间帮助互换数据资产。此外,它还能够分层式管理数据资产,让许多不同部门的大型团队在同一个场景工作并共享数据,从而进行协同和分布。

 

对于 USD,施澄秋强调,它甚至可能成为虚拟世界的 HTML。也就是说,以前在万维网 www 中用 HTML 来解析、表达和描述网页超媒体,今后在 3D 虚拟世界中可能会使用 USD 来解析各式各样的复杂大型场景,它会成为一个行业标准,甚至超出以前针对媒体娱乐行业的定位。