烤箱搬出最大显卡后，英伟达在厨房发布了7nm安培GPU

最后更新：2020-05-16 10:47:30 手机定位技术交流文章

由于新的皇冠肺炎疫情的影响，一年一度的GTC会议今年采取了在线会议的形式，而英伟达的创始人兼首席执行官黄仁勋成为了厨师，并将会议地点转移到了他的厨房。我也不知道2080年在视频卡玩家圈子里是不是像煤气炉的杆。在两天前的热身赛视频中，老板黄将新产品从烤箱中拿出来准备发布会...

据黄仁勋说，他已经在家工作了45天。这次演讲的视频是事先在他家厨房录制的。2020年GTC的主题演讲和新产品发布只在7个视频中完成，他还称之为NVIDIA历史上的第一个“厨房主题”。

在5月14日晚举行的英伟达GTC2020大会上，英伟达发布了备受期待的7纳米制程安培架构的图形处理器和两个基于该架构的EGX边缘人工智能平台产品。最后，英伟达还发布了相应的第三代工作站DGX A100，也可以称为个人超级计算机，以支持桌面上的人工智能研究并扩展到云。

在这次GTC 2020大会的演讲中，黄仁勋主要谈到了高性能计算、人工智能和自动驾驶。

世界上最大的7纳米图形处理器

期待已久的安培架构图形处理器——A100，终于正式发布了。与2018年发布的上一代图灵架构图形处理器一样，黄仁勋称这是英伟达八代图形处理器历史上最大的性能飞跃。

“A100是人类制造的最大的7纳米工艺芯片。它集人工智能训练和推理于一体，性能比前一代高20倍。”黄仁勋说。就具体参数而言，A100采用最先进的TSMC 7纳米工艺，拥有540亿个晶体管，是一款CoWoS 3D堆叠芯片。这个软件包是专门为科学计算、云图和数据分析而构建的。芯片面积为826平方毫米，GPU的最大功率为400瓦。

除了拥有6912个CUDA核心，它还使用第三代张量核心来支持TF32操作。黄仁勋解释说，在没有任何代码变化的情况下，FP32精度的人工智能性能可以比上一代伏打架构提高20倍，达到19.5万亿次/秒。此外，张量核心还支持FP64双精度计算，其性能是高性能计算应用的2.5倍。

除了性能提升之外，安培GPU还可以在一个平台上加速负载横向扩展和纵向扩展。" A100将增加吞吐量，同时降低数据中心成本."黄仁勋说。

凭借这些新功能，Avida A100可以成为人工智能培训和推理以及各种高要求工作负载的理想选择，如科学模拟、对话式人工智能、推荐系统、基因组学、高性能数据分析、地震建模和金融预测。

Avida上一次发布如此强大的图形处理器芯片是在2017年的特斯拉V100。在艾维达看来，自从沃尔特的特斯拉V100推出以来，行业对人工智能模型培训的需求增加了3000倍。显然，这也是Avida提高计算能力和吞吐量的驱动力。当时，黄仁勋强调，Avida未来的GPU将兼顾训练和推理，这是一个革命性的突破。

今天，他似乎已经实现了三年前的承诺。根据上图中Avida给出的数据，A100与上一代Telsa V100相比，BERT模型训练性能提高了6倍，BERT模型推理性能提高了7倍。但是我们应该称之为GPU还是TPU？

据报道，安培将成为NVDIA的新一代GPU核心，取代图灵和沃尔特架构。换句话说，NVIDIA的新一代图形产品只有这一套核心，涵盖GeForce、Quadro、Tesla等。

特斯拉A100加速器卡

第一个基于A100图形处理器的产品是特斯拉A100加速器卡。据介绍，该卡支持第三代NVLINK，与服务器的双向带宽为4.8 TB/s，从GPU到GPU的互连带宽为600 GB/s。特斯拉A100拥有40GB HBM2内存、5120位视频内存宽度和400瓦的TDP。

除了NVIDIA产品广泛采用的张量核心之外，特斯拉A100还使用了新GPU的几个重要特性:

一种是多实例GPU-MG(简称MIG)，这是一种创新技术，可以将一个GPU分成七个独立的GPU，为不同的目标提供不同的操作，并最大限度地提高计算效率。

第二种是第三代NVIDIA NVLink互连技术，它可以将多个A100 GPU组合成一个巨大的GPU来执行更大规模的训练任务。

最后，结构化稀疏，一种利用人工智能数学固有稀疏性的新的高效技术，使性能翻倍。

这些技术的创新使特斯拉A100加速器卡成为苛刻工作负载的理想选择。它不仅可用于人工智能推理和人工智能训练，还可用于科学模拟、人工智能对话、基因组学、高性能数据分析、地震建模和金融计算等。

DGX-A100超级计算机

与此同时，英伟达还宣布，基于特斯拉A100的DGX A100超级计算机有八个特斯拉A100加速器卡，性能高达5倍。阿里云、AWS云、谷歌云、微软Azure、甲骨文和滕循云都将推出基于DGX A100的云服务。

黄仁勋说:“人工智能已经应用到很多领域，比如云计算、汽车、零售和医疗，人工智能算法变得越来越复杂和多样化。从2016年至今，ResNet模型的计算能力需求增加了3000倍，我们需要更好的解决方案。”

DGX-A100配备了AMD的第二代EPYC“罗马”企业处理器。两个AMD EPYC 7742加起来有128个内核/256个线程，最高可提升3.40千兆赫。

DGX A100配有8个安培架构的特斯拉A100图形处理器，每个处理器集成40GB高带宽(12.4 TB/秒)视频存储器，总容量为320GB。

据报道，该系统不仅具有10pb的计算性能，而且具有5pb的人工智能记录性能。每个GPU支持多达12条NVLink互连总线。GPU-GPU带宽高达600GB/s，可确保八个GPU完全互连。同时，有6个NVIDIA NVSwitch芯片，双向带宽高达4.8 TB/s

然而，从示意图中可以看出，在每个图形处理器周围实际上有六个HBM2显示存储器芯片。显然，其中一个未启用，其余五个具有8GB的单个容量，因此形成40GB。

在网络方面，新购置的Melanox ConnectX-6 HDR 200Gb/s网络接口已配备，包括8个用于群集的单端口ConnectX-6 VPI，峰值性能为200 Gb/s，以及一个用于数据和存储网络的双端口ConnectX-6 VPI，每秒钟总共提供3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎，如RDMA、GPUDirect和夏普技术，实现了最高的性能和可扩展性。

此外，借助A100的多实例图形处理器功能，每个DGXA100系统可分为多达56个实例，以加快多个小型工作负载的处理速度。有了这些功能，企业可以在完全集成的软件定义平台上根据需要优化计算能力和资源，从而加快数据分析、培训、推理和其他工作负载。

有趣的是，与之匹配的中央处理器放弃了英特尔至强处理器，转而使用两个AMD第二代罗马处理器，这是最高的64核型号。同时，它配有1 TB的ddr4内存和15 TB的pcie第4.0代nvme固态硬盘，比第3.0代NVMe固态硬盘快2倍。

黄仁勋说，它配备了“世界上最大的显卡”。不算外壳，光是计算板和散热器就有45公斤重，集成了3万多个不同的组件，钻了多达100万个孔，连接电路长达1公里。

英伟达声称，DGX A100的人工智能计算性能比高端中央处理器服务器高150倍，内存带宽高40倍，IO带宽高40倍。

英伟达DGX A100现已上市，价格为199，000美元。

目前，它已经开始通过合作伙伴网络销售。存储设备供应商，包括DDN存储、戴尔、IBM、NetApp、纯存储和伟达，也计划将英伟达DGX A100集成到他们的产品中。

美国能源署的阿尔贡国家实验室宣布采用DGX A100。该实验室将利用该集群的铝和计算能力来更好地研究和应对新发肺炎。

黄仁勋表示，一个由5个DGX A100系统组成的价值100万美元的机架可以取代目前由50个DGX-1和600个中央处理器组成的价值1100万美元的25机架人工智能培训和推理数据中心。此外，功耗也可从630千瓦大幅降至28千瓦。

难怪云服务提供商下订单如此之快，以至于不得不省电。正如黄老板在新闻发布会的视频中所说的，"买得越多，省的钱就越少。"。

GPU+SoC扩展自动驾驶平台

自动驾驶芯片也是此次发布的亮点。

"自动驾驶汽车是我们这个时代最大的计算机挑战之一."黄仁勋表示，正因如此，英伟达也在全力推进NVIDIA DRIVE平台的迭代。

此外，这一次，英伟达将不再是一个简单的力叠加游戏，而是使用新的Amp GPU和即将推出的欧林片上系统(SoC)来扩展DRIVE AGX平台，从ADAS系统扩展到DRIVEAGX PegasusRobotaxi平台。“它不仅可以为前挡风玻璃提供一个5瓦的自动驾驶辅助系统，还可以扩展到L5机器人轴系统。”

后者配有两个欧林SoC和两个英伟达安培图形处理器，每秒可实现2000万亿次运算，比上一代平台的性能高出6倍。同时，它还可以简化为入门级ADAS/2级，性能为10级，功耗低至5W。

据悉，欧林SoC系列将于明年开始提供样品，并将于2022年下半年投产并供应给汽车制造商，为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

此前，肖鹏使用Avida Xavier构建L3自动驾驶计算平台。根据昨天发布的信息，Avida DRIVE AGX Xavier平台计划用于美国电动汽车初创公司卡诺的下一代电动汽车、法拉利未来的FF 91和小马之星。

由于肖鹏汽车和泽维尔平台之间强大的架构兼容性，该公司还在探索NVIDIA Orin平台的应用机会。

两种新的EGX边缘人工智能平台产品

英伟达还发布了两个新的边缘人工智能平台，据说它们在边缘提供了安全和高性能的人工智能处理能力。

EGX A100适用于大型商用通用服务器，而微EGX Jetson Xavier NX适用于微边缘服务器。这两种产品可以在边缘提供安全、高性能的人工智能处理能力，适用于制造、零售、电信、医疗等行业。

黄仁勋表示，EGX A100是第一款基于英伟达安培架构的边缘人工智能产品。借助英伟达的MelanOx ConnectX-6 Dx板载网卡，EGXA100每秒可以接收200 Gb的数据，并将其直接发送到图形处理器存储器进行人工智能或5G信号处理。实时处理来自摄像机和其他物联网传感器的大量流数据可以提供洞察力并更快地提高业务效率，例如，同时管理机场的数百台摄像机。

EGX Jetson Xavier NX不使用最新的图形处理器，但NVIDIA称其为世界上最小、最强大的人工智能超级计算机，适用于微型服务器和边缘智能物联网设备。与行业中广泛使用的上一代捷信TX2相比，捷信Xavier NX模块性能提高了10倍以上。通过使用云原生技术，开发人员可以利用这种只有信用卡大小的高人工智能功能和高计算性能模块。运行EGX云本地软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流数据，例如管理便利店中的少量摄像头。

Jetson Xavier NX拥有云原生能力，得到了嵌入式生态系统的支持，据报道，合作伙伴已经提供了20多个解决方案。捷森Xavier NX开发套件和捷森Xavier NX模块目前通过英伟达分销渠道销售，价格为399美元。

责任人:刘路飞

本文由在线网速测试整理编辑，转载请注明出处。

烤箱搬出最大显卡后，英伟达在厨房发布了7nm安培GPU

热门文章

文章分类