寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

      最后更新:2020-05-09 11:00:33 手机定位技术交流文章

      机器之心释放

      机器编辑部之心

      2020年4月,国内人工智能芯片独角兽寒武纪宣布,其云智能芯片和加速器系列思源270将首次正式支持基于寒武纪虚拟MLU技术的IOV功能。

      据了解,SR-IOV功能具有更好的租户隔离和应用热迁移特性,可以为云服务提供商提供安全、高质量的人工智能计算资源,充分保护用户在人工智能领域的投资。思源270是寒武纪第一个支持IOV虚拟化的云智能芯片产品。据报道,所有的云智能芯片在寒武纪的未来将支持SR-IOV功能。

      瞄准用户痛点:如何有效利用人工智能计算资源

      思源270是寒武纪引进的面向云的智能芯片,支持全面的人工智能推理场景部署,包括视觉、语音、自然语言处理等多种人工智能应用。思源270系列支持多种部署场景,如数据中心、专业场景甚至桌面。

      在这些部署场景中,面向云的部署、多样化的人工智能推理以及使用寒武纪边缘板卡的应用开发,如何有效利用人工智能计算资源是用户最关心的问题。这也是寒武纪SR-IOV虚拟化功能的核心需求:

      面向云的部署:在云部署环境中,云服务提供商(CSP)帮助大量租户以经济高效且高度可用的方式提供计算、存储和网络资源服务。在此基础上,他们还可以提供高达99.99%的高可用服务级别。虚拟机管理程序和底层硬件资源的高效共享以及多租户和实例的相互隔离已经成为人工智能云服务的基本需求。复杂人工智能推理:当人工智能应用被部署时,用户经常会遇到具有复杂业务逻辑的场景,需要构建具有多种网络模型的人工智能辅助决策系统。为了保证服务器节点的服务质量,通常采用一机多卡的部署模式。然而,当需要平衡计算成本和服务质量时,用户会希望使用单个板卡来解决与多个型号并行的问题。面向边缘和终端应用程序开发:寒武纪产品系列已经完全覆盖了云、边缘和终端维度。在面向边缘和终端的应用开发过程中,用户经常受到部署端的CPU、产品形式或网络条件的限制,不能直接在最终部署的设备上开发。寒武纪支持采用端到端云的集成开发环境,以帮助用户快速获得应用,同时帮助将云端计算资源高效合理地分配给应用开发团队是思源270虚拟MLU的发展目标之一。寒武纪第一个人工智能IOV功能:使人工智能云、业务部署和应用程序开发更加灵活、高效和安全

      为了实现上述需求,思源270采用了寒武纪虚拟化技术——VMLU,允许多个操作系统和应用程序在一个物理计算平台上共存,共享同一芯片的计算资源。它为用户提供了良好的安全性和隔离性,还支持热迁移等灵活功能。VMLU有助于提高云计算的密度,并使数据中心的IT资产管理更加灵活。

      除了虚拟化的基本资源共享功能外,思源270首创的SR-IOV虚拟化技术支持在云服务器上运行多个实例,直接共享智能芯片的硬件资源。在传统的虚拟化系统中,在虚拟机管理程序或VMM软件级别浪费了大量的资源和时间,PCIe设备的性能优势无法得到充分发挥。SR-IOV的价值在于消除这一软件瓶颈,并帮助多个虚拟机实现高效的物理资源共享。

      与传统图形加速卡的vGPU采用的虚拟化技术不同,思源270采用了“非基于时间片的共享”方法,因为它没有时间片切换上下文造成的性能损失,可以充分保证每个VF的独立服务质量,并且可以完全独立运行,互不影响。

      硬件环境::1xmlu270-S4,至强黄金6140 @ 2.30ghz,测试环境:Cambricon-MLU270 1.2.5,操作系统:Centos7.6

      SDK版本:neuware上的剑桥-mlu 270-1 . 2 . 5+neu ware-mlu 270-驱动程序-4.1.0,框架:Caffe

      此外,IOV还可以避免时分复用交换应用带来的性能开销。如上图所示,当虚拟机逻辑单元与多机或虚拟机一起运行时,单个虚拟设备业务的性能保持在硬件性能的91%以上。当多个模型并行时,这使得用户能够对每个虚拟帧做出更准确的服务质量(QoS)期望,而不考虑当多个模型并行时由拥塞或切换引起的性能开销。

      基于服务请求的虚拟存储逻辑单元-IOV:更好的租户隔离

      虚拟化技术广泛用于数据中心,不仅因为它提供了共享资源的能力(提供了更好的密度性能),还因为与其他技术(如docker)相比,虚拟化提供了更好的隔离和安全性。寒武纪vMLU基于SR-IOV的虚拟化技术可以帮助云用户实现更好的隔离特性,具有以下特定优势:

      首先,资源是独立的,互不干扰,可以保证服务质量;第二,当多任务处理时,不用担心队列阻塞。第三,它有独立的内存资源,虚拟文件彼此不可见。最后,部署相对简单,不需要修改开源软件的组件。

      一种更有效的部署方法

      除了为虚拟机提供虚拟化支持之外,寒武纪虚拟化技术还为多容器提供基于IOV的虚拟化扩展(IOV平面模式),用于多个容器共享MLU卡的计算能力。同时,它提供了基于kubernetes的管理插件。此功能为不需要那么多隔离和安全性的数据中心提供了更轻的部署。

      下图比较了在容器环境中经常使用的GPU弹性共享池技术和SR-IOV平面技术。

      弹性图形处理器共享池与斯洛伐克-IOV平台

      从上图可以看出,寒武纪vMLU采用的SR-IOV-Flat技术在隔离和服务质量方面具有明显的优势。

      虚拟化实时迁移:帮助人工智能云应用达到99.99%的高可用服务级别

      为了实现99.99%的高服务质量,云服务的年度意外停机时间不得超过53分钟。实时迁移功能可以在虚拟机及其应用程序仍在运行时将其移动到另一台主机。人工智能计算资源是否具有热迁移能力是衡量其在数据中心集群配置策略、平衡主机工作负载和容灾能力的关键指标。

      寒武纪vMLU虚拟化技术为思源270提供热迁移能力。下图显示了热迁移发生时MLU芯片内部的数据流程图:

      在实时迁移功能下,人工智能计算能力可以在不停机的情况下转移,而思源270可以帮助人工智能云实现99.99%的高服务可用性。

      基于寒武纪vMLU虚拟化技术和支持SR-IOV功能,寒武纪思源270云智能芯片正式推出。其高质量的租户隔离和应用热迁移功能可以为云服务提供商提供更安全、更高质量的人工智能计算资源。据悉,搭载虚拟化vMLU技术的寒武纪思源270已经与金山云合作开始内部部署,预计将在未来1至2个月内正式上线。请期待它。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/6209.html

          热门文章

          文章分类