剑指未来,这条产品线揭示了 NVIDIA 的野心

      最后更新:2020-03-23 12:46:05 手机定位技术交流文章

      作者:陈寅初

      据英伟达的老板说,当没有公司名称时,所有的文件前面都有“NV”这个词,意思是下一个版本。直到有一天,由于合并,公司的一个创始合伙人搜索了所有与nvidia相关的单词,最后选择了拉丁文“invidia”(意为远见和嫉妒),这是谐音“嫉妒”,所以NVIDIA的名字被每个人采用。经过20多年的发展,NVIDIA已经成为世界上最著名的芯片公司,拥有包括GeForce、Quadro、Tesla和Tegra在内的多条产品线。

      四条产品线之间的分工相对清晰。GeForce主要面向游戏消费市场,Quadro面向专业图形和入门科学计算领域,Tesla面向超级计算市场,Tegra面向物联网。与GeForce和特斯拉相比,Quadro对普通人来说有点“孤独”,但它在NVIDIA的收入中扮演着极其重要的角色。其专业可视化业务已经连续16个季度实现增长。

      如前所述,Quadro是NVIDIA的专业图形产品品牌。在其诞生的那一年(1999年),Quadro成功地创造了许多第一:世界上第一个集成硬件测试与测试;专业卡,第一个移动工作站,第一个Linux专业工作站驱动程序作为后来者,Quadro凭借其强大的产品实力,很快就淘汰了当时主导工作站市场的所有品牌,如3DLabs和FireGL。自

      推出以来,Quadro在专业应用市场保持着领先的市场份额。随着其功能和性能的日益强大,基于GPU的专业应用也受到越来越多的关注,Quadro也有越来越多的发挥潜力。

      发布后,尤其是NVIDIA图灵架构的发布,不仅传统工作站应用受益于RT Core的支持,人工智能和大数据也因张量核心而得到进一步扩展。此外,图灵在多卡通信(NVLink)和视频加速方面取得了显著进步,为专业应用提供了面向未来的支持。

      值得一提的是,英伟达这次打破常规,发布了夸德罗RTX图灵架构产品线的第一款产品,这表明英伟达这次对图灵架构专业产品给予了前所未有的关注。

      硬件光线跟踪加速内核

      图灵架构最重要的创新是首次集成了一个称为RT核心的光线跟踪内核。光线跟踪被业界认为是目前实现真实渲染的最强技术。它从观察者发出光线,穿过屏幕像素到达渲染对象,产生诸如反射、折射和阴影之类的派生光线,并结合对象材料、大气等的特性来确定像素的最终颜色

      理论上,光线跟踪可以完全模拟真实世界的照明(声音等)。),但现实世界中几乎有无数光子在物体之间碰撞。因此,在真实光线跟踪应用中,通常使用有限的主光线(穿过像素的光线)和导出光线,结合一些随机算法,以在有限的计算资源下提供真实效果的可接受的渲染。

      过去,光线跟踪是在软件中执行的,即使用通用计算单元的中央处理器和图形处理器。由于光线跟踪是一个复杂且计算量大的应用,软件很难实时渲染,所以光线跟踪基本上一直局限于对交互操作敏感度较低的输出渲染。

      ,当然,实时光线跟踪也存在于这个时期,但速度令人抓狂,图像效果不得不妥协。毕竟,如果要实现实时,允许的计算时间是有限的。在这种生态环境下,人们自然愿意在开发资源上投资很少。像Keyshot这样的工业设计渲染器只在中央处理器上运行。

      夸德罗·RTX采用的图灵架构改变了这种情况。RTX引进的实时内核以硬件电路的形式将射线追踪中最耗时的射线求交计算和三角形筛选处理集成到GPU中,大大提高了射线追踪计算的能耗率。结合混合渲染算法,效率最终远远优于以前的实时光线跟踪性能。

      增强型张量核心

      张量核心是英伟达的混合精密计算加速单元,专为伏打架构中的人工智能而推出。通过英伟达的自动混合计算精度(AMP),它可以在各种深度学习框架中提供自动混合加速。Quadro RTX的图灵架构还集成了张量核,并进一步扩展到添加4位整数精度支持,这可以为低精度要求的场合提供更高的吞吐量

      让我们以基于TU102图形处理器的Quadro RTX 8000为例。其单精度(32位浮点)性能为16.3万亿次浮点运算,但INT4(4位整数)性能高达522 TOPS,INT8(8位整数)性能为261 TOPS

      使用Quadro RTX作为深度学习或计算密集型计算方案,这不仅可以确保灵活和强大的性能,而且在使用成本方面也优于其他方案。NVIDIA的NGC容器镜像方案可以让用户几乎不考虑平台部署的复杂性。只要在平台上安装CUDA和Docker,并复制粘贴一些指令,就可以快速部署各种主流深度学习框架容器镜像,快速编写和运行深度学习代码。

      8K视频编解码器

      图灵架构集成了升级的NVDEC和NVENC,支持HEVC 4:4:4格式视频解码和8K 30fps格式视频的HEVC编码HEVC编码的图像压缩率比H.264高30%以上。对于视频会议、在线直播、视频编辑和工作站流,新的编解码器引擎意味着Quadro RTX用户的效率和图像质量更高

      特别值得一提的是图灵的HEVC编码器支持B帧压缩。B帧是一种参考前、后帧与当前帧之间的差异进行编码的方法,压缩比比P帧高(I帧效率最低),因此Quadro RTX的HEVC编码器可以在相同的码率下获得更高的图像质量

      高达48 GB的板载内存

      Quadro RTX全面使用GDDR6内存,其中Quadro RTX 8000内存带宽高达672 Gb/s,内存容量高达48 Gb,远远超过游戏卡版本RTX 2080 Ti1GiB。它是泰坦RTX的两倍,泰坦是针对发烧玩家的。即使与NVIDIA目前的顶级服务器加速器Telsa V100S PCIe相比,它的容量也增加了50%。

      不仅如此,图灵架构还有一个名为NVLINK的通用I/o接口,带宽高达100 gb/s。它可以用作电脑上的多卡并行总线。目前,NVLINK相当于一条扩展内存总线。两台Quadro RTX 8000可以快速共享彼此的内存,显著提高多卡性能。

      多屏幕大屏幕功能

      Quadro RTX的另一个核心专业应用领域是多屏幕应用,如当前阶段的背景墙,它经常与复杂的三维和视频处理应用结合使用,不仅可以实现多屏幕同步,而且要有很强的实时处理能力和良好的第三方软件兼容性

      作为一家拥有多年丰富经验的多屏显卡供应商,Quadro RTX的多屏处理能力也相当强。它支持NVIDIA Quadro Sync II同步卡,并可在4个Quadro RTX 6000的组合中提供16个屏幕的强大同步输出能力。如果有更高的性能要求,你也可以使用4个RTX 800形成32屏幕输出。对于如此艰难的多屏幕解决方案,很难找到竞争对手。

      2018年Siggraph上发布了最后一款采用四路RTX

      图灵架构的CPU渲染芯片。作为一种革命性的体系结构,特别是集成硬件光线跟踪加速功能,当时并没有支持多少应用程序。随着图灵建筑产品的上市,比如夸德罗With,这些疑虑已经被消除了。例如,在专业可视化应用领域,包括以前顽固的中央处理器渲染器,如Keyshot,都加入了完全支持图灵架构的行列。

      9 Luxion的Keyshot是一款独立的专业级实时光线跟踪和全球照明渲染器,在业界享有盛誉。它因其简单逼真的效果而受到许多工业设计师的青睐。长期以来,Keyshot只支持中央处理器渲染模式。然而,从9.0版开始,Keyshot引入了NVIDIA OptiX光线跟踪渲染框架来支持图形处理器加速

      在Keyshot的实际使用中,在1920x1080的视口模式下(从视图更新开始到完成清晰平滑的画面),使用纯中央处理器(AMD Ryzen 3900X 3.8GHz 12核、64GB DDR4-3600内存)渲染场景。在过去或中央处理器模式下,大约需要90秒。当GPU渲染被启用时,Quadro RTX 40000渲染仅用了大约3秒,性能提高了近30倍。

      在渲染输出(渲染)模式下,3840x2160分辨率128采样,从开始到结束,同样的配置,中央处理器需要388秒,而图形处理器渲染只需要35秒,性能提高了10倍

      不妥协的Arnold渲染器

      相对于Keyshot更倾向于视觉产品制造设计。不同的是,欧特克的阿诺德(阿诺德是的,官方名称来自于总督,他的手臂比你的大腿粗,以表明他是一个蛮力方案,其中蛮力指的是完全随机的路径跟踪衍生射线),是一个视觉艺术创作的三维渲染器。

      阿诺德最初是由立体角公司的创始人马科斯·法加多开发的。当时,它是为多伦多演播软件公司的灯光设计软件WYSIWYG编写的一段灯光跟踪代码。所见即所得后来获得了艾美奖。

      到2004年,索尼电影公司和阿诺德开始合作开发代码,并使用阿诺德作为主要的渲染器。合作的结果是动画电影《怪物屋》,该电影在2006年获得奥斯卡奖提名。这部电影是一部由暴力路径追踪制作的动画故事片,之后是《天堂美食》和《爱丽丝梦游仙境》等作品

      欧特克在2016年收购了立体角,然后将阿诺德添加到其玛雅和3ds Max 3D设计软件中。在最新的Arnold 6中,集成了NVIDIA的OptiX光线跟踪渲染框架,加速了支持图灵架构的RT Core硬件光线跟踪,这极大地帮助了Marcos追求强力光线跟踪美学。上图

      是基于欧特克玛雅采用阿诺德渲染器时,夸德罗RTX和中央处理器(2路至强黄金6126 2.4千兆赫)的性能对比。可以看出,采用夸德罗·RTX 6000后,阿诺德的速度提高了近1.4倍。结合多卡渲染,性能仍能达到较好的扩展率。如果使用8台Quadro RTX 8000或RTX服务器,性能甚至可以提高近17倍。这是什么意思?这意味着,如果你想运行这个渲染与中央处理器,你可能需要18台服务器,相比之下,如果你使用基于NVIDIA Quadro RTX RTX服务器。

      上图中由英伟达官方网站提供的RTX服务器供应商名单仍有很多客户选择。

      使用RTX服务器进行渲染有很大好处。在单机操作的情况下,如果系统执行成品渲染,将调用本地系统的所有资源进行渲染处理,几乎不能执行其他交互操作。

      但是如果渲染操作以队列模式被扔进网络中的RTX服务器,则只有由工作站处理的更新数据需要被传输到服务器(如上所示)。当服务器渲染时,工作站的交互操作完全不受渲染的影响。

      人工智能帮助好莱坞

      夸德罗RTX加速其在电子艺术创作中的表现。当然,它不限于三维渲染。随着图灵架构引入张量核心,夸德罗·RTX也在一些视频特效处理方面大放异彩。例如,奥斯卡提名影片《爱尔兰人》和《复仇者联盟:终结游戏》(复仇者联盟:最终战争)采用了人工智能来加速减龄效果的实现,成功地将许多演员的银幕年龄降低了几十年。根据

      电影《爱尔兰人》的剧照,许多演员都采用了ILM的人工智能减龄特效

      。《爱尔兰人》的情节跨越了60年。化妆部门不能自然地再现三个主角在2岁或30岁时的样子。为了保持画面的可信度,电影没有选择许多不同年龄的演员或特殊的化妆技巧来满足情节的需要。取而代之的是演员罗伯特·德尼罗(76岁,扮演二战老兵弗兰克·爱尔兰人·希兰),这部电影从弗兰克回顾生活并讲述他的黑手党杀手生涯开始,阿尔·帕西诺(79岁)和乔·佩西(76岁)照常演出。

      摄像头通过两个平行于主摄像头的改进型Arri mini捕捉角色的红外特征(这样就不需要在脸上贴标记点,原理类似于手机上的3D结构光)。然后,他们利用夸多罗·RTX专业卡实施人工智能技术来减少老化,在满足情节需要的前提下,实现了高可信度和一致性的形象和人物塑造。

      ILM采用了数千张演员过去的照片作为人工智能的学习对象。整个过程使用了英伟达RTX技术来加速操作,这使得包含大量老化处理的电影成功完成。

      电影《复仇者联盟的最后一战》和最后反英雄灭霸的剧照

      ,而电影《复仇者联盟的最后一战》包含2500个特效镜头,号称是历史上最具特效的电影。数字领域的特效团队使用机器学习技术为演员乔什·布洛林,反派灭霸的表演制作了一个数字动画版本。

      数字域使用一个名为化妆舞会的机器学习系统来捕捉演员表演和面部表情的低分辨率版本,然后将它们转换成高分辨率的灭霸脸。通过这种技术,动画师的面部造型工作量大大减少,后期制作时间缩短。

      Quadro RTX实施全媒体和全过程硬件加速

      现在是快速媒体为王的时代。文本内容的影响早已被图片和短片所取代。图片和视频往往是不可分割的。内容创建团队使用各种媒体创建工具,但这些工具很可能是由Adobe提供的。例如,用于照片绘图的Lightroom、用于图片后处理的Photoshop、用于非线性视频编辑的Premiere Pro、用于视频特效的After Effect、用于生成三维纹理的实体等。英伟达公司与Adobe公司有着密切的合作关系,通过Quadro RTX,可以为上述软件提供硬件加速的全过程。

      在超高分辨率视频处理方面,Quadro RTX能够提供比当前顶级工作站CPU快14倍的加速(具有强大的通用处理性能和视频编码和解码能力),大大缩短了时间这是什么意思?

      重要的是要知道,创作者有时不得不面对一些经常需要修改的客户。如果修改几次,用中央处理器运行N次超高清视频处理会让人发疯。有了GPU加速,这样的问题至少会容易得多。

      面对手机的日益普及,垂直屏幕视频已经成为在线短视频的主流,拍摄时可以采用水平构图。如果要转换为垂直构图,为了确保拍摄对象在画面中的位置正确,需要对其进行重新构图。对于运动视频,手动处理需要大量的能量,而Quadro RTX结合Premiere Pro的人工智能重合成技术可以实时完成这一操作。

      Quadro RTX和新的跨流程内容创建加速

      全流程加速可以提高内容创建的生产率。然而,NVIDIA不仅提供硬件加速,还提供一个开放的网络协作平台Omniverse,它可以简化实时图形工作室团队的流程。

      例如,使用Maya和Omniverse门户的艺术家可以使用UE4与另一个艺术家合作,双方都可以看到应用程序修改的实时更新这种情况就像您使用Word修改文档时,同事可以立即看到修改后的内容,然后根据修改后的内容及时更新标题文档

      拿栗子:上面的

      是NVIDIA Omniverse的应用场景,右上角是Omneverse查看器的显示内容。下面是三个不同的设计者,分别使用Maya(三维建模创建)、UE4(游戏场景开发)和Adobe Estate(三维纹理处理)进行飞机建模、三维场景设计和纹理映射操作。三位设计师都使用Omniverse平台进行实时电子艺术资产数据通信位于

      右上角的Omniverse Viewer可以即时呈现UE4设计者制作的场景的实时渲染。三位设计师可以随时通过Omniverse Viewer观看彼此合作的实时结果。该工具极大地提高了团队合作效率。

      Omniverse Viewer使用Quadro RTX的CUDA内核、光线跟踪内核和张量内核来加速逼真的实时渲染效果。来自世界各地的设计师和艺术家终于可以实现真正的合作。

      Quadro RTX和大数据应用

      大数据是近年来的热门话题。所谓的大数据一般是指不能由办公数据表软件(如Excel)处理的海量数据。随着互联网的发展,信息的膨胀速度远远超过了传统数据处理方法所能处理的能力。如何快速挖掘、清理、整理大数据,并将其转换成对人类来说清晰的、具有分析意义的图表,已经成为目前蓬勃发展的新兴业务。

      英伟达在该领域提供了一个名为RAPIDS的解决方案。它结合了CUDA开发中以前的NVIDIA数学库和新开发的专门用于大数据处理的框架,允许开发人员用Python语言调用Quadro RTX图形处理器来实现海量数据的快速处理。

      OmniSci公司(前身为MapD)使用RAPIDS处理大量WIFI节点数据。通过调用Quadro RTX,实现了对5亿行数据的数据表的实时分析和处理,最终形成了仪表板式的动态数据图表。该仪表中的地图可实时放大和缩小,地图中显示的热点分布状态将实时更新。

      多功能Quadro RTX

      Quadro品牌最初面向图形工作站,主要是在工作站软件中提供更快的视口交互渲染。专业卡的专门化是指在专业图形设计软件上提供视口加速。在引入了Cg语言

      之后,NVIDIA在2004年制作了一个名为意式冰淇淋的商用图形处理器渲染器,这是NVIDIA首次尝试将图形处理器用于通用计算的开端。意式冰淇淋在某种程度上具有重大的实验意义,因为当时很少有渲染器使用GPU渲染成品,但正是由于意式冰淇淋的积累,NVIDIA在GPU通用计算开发方面获得了宝贵的经验。

      在2008年CUDA发布后,英伟达推出了基于图形处理器的通用计算光学光线跟踪渲染框架。经过十几年的发展,OptiX已经被业界广泛采用从意式冰淇淋到OptiX,再到第三方GPU渲染器,Quadro系列一直是硬件的基石。回顾过去,“未来已经到来”实际上非常适合Quadro这一产品线。作为图灵架构的第一个产品,

      Quadro RTX的引入首次使人们能够加速从视口到最终帧渲染的整个过程,并且NVIDIA的渐进开发策略也证明是成功的,该策略始终基于图形先决条件并考虑了一般用途。

      一般来说,特斯拉T4可以做到这一点,只是通过图像识别,但应该指出,不同于特斯拉,它没有显示输出或虚拟显示器还没有能够实现远程10位高精度显示输出的限制,夸德罗RTX有独特的优势,因为它是面向工作站设计的显示输出。例如,CT医学图像往往需要高精度的灰度显示输出能力,而Quadro RTX正好可以满足这方面的需求,一卡多用

      可以说,在大多数情况下,Quadro RTX并不逊于特斯拉和其他专门针对大数据和人工智能应用中的服务器加速的产品。特斯拉和Quadro有许多共同的特点,比如通用汽车公司的RDMA,而GeForce没有。与主要用于服务器的特斯拉相比,你可以把放置在(桌面或移动)工作站中的夸德罗·RTX视为“附近的泰莎”

      和Quadro RTX本身也具有显示输出和USB-C虚拟现实头盔连接能力,加上面向工作站的硬件加速功能,使其成为专用(图形工作站)多功能(大数据、人工智能等)的特殊场所。)

      最后,值得一提的是,由于疫情的影响,英伟达今年的GTC技术峰会已经改为完全在线运营。网播讲座和课程将通过免费注册的GTC数字网提供。届时,GTC数字将在网上发布大量技术讲座和课程,对于想了解图形、深度学习和大数据等行业最新发展的读者来说,这是一个非常好的年度盛宴。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/2420.html

          热门文章

          文章分类