最后更新:2022-07-17 00:59:49 手机定位技术交流文章
划重点:
BEV空间的特性级融合具有以下优点:
1.内摄和多模式融合更容易实现
2.时间序列集成更容易实现
3.能“填充大脑”的对象在堵塞的地区
4.使优化从头到尾更容易
在高级别智能驾驶领域,除了Tesla和Mobile运行纯视觉技术路线外,其他大部分的玩家也运行多传感器融合技术路线。
多传感器融合方案,一方面能够充分利用不同工作原理的传感器,提升对不同场景下的整体感知精度,另一方面,也可以在某种传感器出现失效时,其他传感器可以作为冗余备份。
目前多传感器融合方案,主要有后融合(目标级融合)、前融合(数据级融合)和中融合(特征级融合)三种。
所谓的后整合意味着每个传感器对目标对象进行单独的深度学习模型推导,因此每个传感器都通过自己的属性输出结果,并集成了决策层,这也是当前主流程序。
它的优点是,不同的传感器可以独立地识别目标,良好的分离,每个传感器可以互备冗余。
对于第一级,重新整合方案很容易实现标准模块化开发,接口密封并提供给主厂“即时”。
对于主机厂,再集成算法很简单,每个传感器的识别结果是输入到融合模块,融合模块在不同的场景下识别每个传感器的结果,设置不同的信任水平,最后根据融合策略作出决定。
然而,聚合后还存在弊端,最大的问题就是,当每个传感器在目标识别后重新整合时,中间人丢失了很多有效的信息,影响了感知精度,最后,融合算法,它仍然是一个基于规则的方法,建立传感器的可靠性以事先了解为依据,局限性很明显。

所谓预融合是指传感器的数据采集、数据同步和这些原始数据的融合。

其优点是,数据可以从整体角度处理,数据可以较早地集成,从而使数据更具关联性。例如,激光雷达云数据可以与相机的像素级数据集成,数据损失可以减少。
但挑战也显而易见,因为视觉数据和激光雷达云数据是异质数据,其坐标系不同,视觉数据是一个二维图像空间,激光雷达点云是三维空间,在进行融合时,你只能在图像空间中放置云层,向图像提供深度信息,或者在一个点云坐标系统中,通过染色云层或渲染特征,让云具有更丰富的语义信息。

坐标系的不同,也导致前融合的效果并不理想,一方面,前融合需要处理的数据量较大,对算力要求较高;另一方面,前融合要想达到好的效果,对融合策略要求较高,过程非常复杂,所以目前业内应用并不多。
为了解决异质传感器的坐标系统不一致的问题,开发者经常将视觉2D图像转移到3D坐标系统,以便其他传感器数据的空间,例如激光雷达云数据,是一致的,以便它们可以在同一坐标系统下集成。
把视觉信息转换成3D坐标系统是今天的展示的焦点--BEV.
BEV是鸟瞰图(Bird’s Eye View)的简称,也被称为上帝视角,用于描述感知世界的一种视图或坐标系统 ( 3D ).BEV也被用来指由计算机视觉领域内神经网络传输的末端视觉信息.从图像空间转换为BEV空间的技术.
虽然 BEV在理论上可以应用于前、中和后融合过程中,因为前融合很难实现,但 BEV很少在前融合和偶尔在后融合中应用,更经常在数据级融合和目标级融合(即中融合)的特征级融合中应用。
所谓中融合首先通过神经网络模型提取不同传感器的中层特性(即有效特性),然后将不同传感器的有效主要特性合并,从而更有可能得到最佳推理。
对于在BEV空间中融合有效的特性,数据损失较少,计算功率消耗较少(与以前的融合相比),因此一般在BEV空间中融合较多。
为了简化描述,除非另有规定,下面提到的BEV感知是指“BEV空间中的中间融合”(特征级融合)。
那么把角度转换成BEV空间的目的是什么?
想象一下停车就好了。停车挺有难度的,尤其对于新手司机来说。驾驶员不仅要注意前方,还要兼顾左右两个后视镜和车内倒车镜,根据经验去预估自车相对于周边障碍物的位置和距离。
而有了车载360环视功能,驾驶员能从上帝视角一目了然地看到自车周边物体的位置和距离,停车也就变得简单了很多。

特别是智能驾驶系统,由于感知、预测、决策和规划的模块,所有都是在3D空间中完成的,摄像机所看到的图像信息,只是真实物理世界在透视视图(Perspective View)下的投影,从图像得到的信息,它需要复杂的后处理,信息损失也很多。并将视觉信息转换为BEV空间,方便地将传感器连接到下游规划控制模块.
此外,BEV空间感知任务,在精度上也有优势。做2D感知时,面对远处的物体,也许几像素的误差会导致数十米的实际误差,在BEV空间的训练模型中,距离误差的损失更明显,因此,感觉结果也更加准确。
总而言之,这就是BEV之所以如此重要的原因。
在了解BEV的技术细节之前,让我们先了解下一个BEV的发展历史。
传统方法的BEV空间转换方法,一般是先在图像空间对图像进行特征提取,生成分割结果,然后通过IPM(Inverse Perspective Mapping,逆透视变换)函数转换到BEV空间。
什么是IPM?
在预览摄像机拍摄的图像中,由于感知效应现象(从一个角度思考世界,感知效应将显示存在非常小观测结果.通常是平行的东西(例如路面线),在图像中却不平行。IPM是摄像机成像过程中的坐标系统变换关系.抽象化和简化其原则,建立了真实世界坐标系统与图像坐标系统之间的相关关系.并进行公式化描述,从而消除了这种认知效应,这就是为什么它被称为逆感知变换。

IPM是连接图像空间和BEV空间的简单直接方法.你只需要知道相机的内部和外部参数。相机内参数,指与相机本身的特点有关的参数,例如, 焦距 、 像素大小等.外部参数是摄像机的实际世界坐标系统中的参数,例如, 摄像机的位置, 旋转方向, 等等.
然而,IPM依靠一些预先确定的假设,例如地面平坦(如果地面平坦)和没有摄像机与地面之间的相对运动(车辆倾斜角不变)。
很多时候这个假设太严苛了,很难满足,比如在颠簸道路上,或者在车辆加速或减速产生俯仰时,系统对目标物的感知结果波动非常大,会产生“忽近忽远”的跳变,平行的车道线,这时也会变成“内八”或者“外八”。
因此,有一个改进的解决方案,即考虑摄像机的实时位置,加上上下角的修正补偿,然后进行空间转换。 虽然改进后效果有所改善,但很难准确地取得实时定位,所以效果并不理想。
在这两年中,深入学习也开始应用于BEV空间转换,逐渐成为主流方案。
与依赖于人类规则相比,使用神经网络将BEV空间从2D空间转换起来可以达到更好的感知效果。
具体的流程是,先通过一个共享的主干网络(Backbone)来提取每个相机的特征(feature),然后通过变换器等来处理多摄像头的数据,完成从图像空间到BEV空间的转换.在BEV空间内,由于坐标系相同,可以很方便地将图像数据和其他传感器数据(如Lidar、Radar等)进行融合,也可以将时间序列融合成四维空间,这也是今天BEV技术中的一个主要趋势。

与后核和前核相比, BEV空间中核的优点是:
传统的交叉摄像头融合或多模式融合,因数据空间不同,需要使用许多后处理规则来关联传感器的感知结果,操作非常复杂。在BEV空间中融合后,再做目标检测,算法实现更加简单,在BEV空间中视觉感知的物体的大小和方向也可以直接表达。
在BEV空间中,时间序列信息可以轻易地结合起来形成一个4D空间。
在4D空间内,感知网络可以更好地实现一些感知任务,如测速等,甚至可以直接输出运动预测(motion prediction)给到下游的决策和规控。
因为视觉感知效应,2D图像很容易被封锁,因而,传统的2D感知任务只能检测可见目标,因为盾牌的完全无力,而在BEV空间内,可以基于先验知识,预测阻塞地区,因此,大脑“填补”那些被阻塞的物体存在的地方。虽然这些对象被大脑“填满”,有一些想象力,但对于较低的控制模块仍有许多优点。
传统做感知任务时,对目标进行识别、跟踪和运动预测,它更像一个序列系统。上面的错误被传递到底部,导致错误的累积。而在BEV空间内,感知和运动预测在统一空间中完成,因此,可以通过神经网络直接优化端到端,“并行”出结果,这样可以避免错误的积累,它也大大降低了人工智能的作用,让感官网络从数据驱动的学习中来,因此, 功能迭代得到更好的实现.
随着特斯拉和毫末智行等纷纷使用BEV空间转换,最近的BEV也引起了业界的广泛关注,然而,目前的BEV应用实践并不太多,行业专家们仍然有很多问题,BEV感知的模式架构是什么?如何在BEV空间进行目标检测和模型训练?BEV语义感知地图能取代高分辨率地图吗?当前的BEV面临的挑战是什么?BEV的技术障碍是什么?为什么一些公司能够做到这一点?而有的公司则不行?
结合这些问题,第九章采访了米力工程技术总监潘兴先生、新周技术视觉专家张洁先生、智能机器人研究主任朱雅先生和一些其他行业专家。
尽管每个公司使用的BEV感知架构可能并不完全相同,但总体上是相似的。
第一步,先将摄像头数据输入到共享的骨干网络(Backbone),提取每个摄像头的数据特征(feature)。
第二步是将所有摄像机数据合并(跨摄像机)并将其转换为BEV空间。
第三步,在BEV空间中进行横向融合,融合了像素级视觉数据和激光雷达点云。
第四步是融合时间序列,形成四维空间-时间维度的感知信息。
最后一个步骤是多任务输出,它可以是静态语义图、动态检测和运动预测等,用于下游控制模块。

值得一提的是,自2020年底以来,变换器在简历领域的应用已引起人们的关注,正如Tesla在2021年人工智能日(英语:AI Day)在FSD展示了其变形算法,国内多家公司也纷纷开始将Transformer应用在感知系统中,例如毫米智能线 、 水平线 、 星云等.
与传统的神经网络(如CNN)相比,变换器的注意力机制,能带来更全面地了解这个领域,使它能够集成到交叉摄像机、交叉传感器和时间序列中,在空间时间序列维度上可以更好地建模,这样, 可以提高感知的准确性.
下图中,南京大学、上海人工智能实验室和香港大学提出的BEVFormer算法架构采用Transformer,在NuScenes测试组中,NDS指标达到新的当前最佳水平(SOTA)56,提升了9个点。

BEVFormer经过骨干网络提取特征后,经过了6个编码层(encoder),每一个都采用了典型的transformer结构。
具体实现上,BEVFormer通过预先设置参数的网格划分(grid-shaped)的BEV 查询机制(BEV queries)来利用时空信息。为了聚合空间信息,BEVFormer设计了空间交叉注意力机制(spatial cross-attention,即,BEV查询机制通过注意机制从多摄像机特性中提取所需的空间特性),为了使BEV查询机制能够从它感兴趣的多摄像头视角提取特征,为了聚合时序信息,BEVFormer提出了时序自注意力机制(temporal self-attention,换句话说,在每个时刻生成的BEV特征将从该时刻生成的BEV特征所需的时间序列信息中收集历史信息。
BEVFormer在通过Transformer进行BEV空间转换时,是通过预先设置参数的网格划分(grid-shaped)的BEV 查询机制和空间交叉注意力机制。
预先设置一个尺寸H x W x C的空间,作为BEVFormer查询空间,H和W是BEV平面的空间维度,C是平面垂直高度的坐标,网格间隔值s代表空间的粒子大小.自车坐标作为原点,BEV查询机制负责持续查询,在这个空间中为每个坐标(x,y)找到一个三维参考点,最终,所有BEV空间转换都完成。

BEV转换期间BEVFusion,尽管没有使用变换器,不过也经历了编码(encoder)和解码(decoder)两个过程,在解码过程中,在BEV的3D空间中将图像信息转换为特征点云,每个像素的深度估计为D,N输入相机会生成一个尺寸NxHxWxD的摄像机特征云,H,W是摄像机特性图的尺寸,D为深度信息。
然后转换了BEV空间的特征云,使用自驾驶作为坐标系统的起点,沿x轴和y轴展开,在本地网格采样方法中,例如,如果网格是r,一般来说, 每个r × r BEV空间网格中的特性都通过聚合操作聚合.沿z轴(高度方向)平整特性,将2D空间转换为BEV空间已经完成。

此外,Transformer还使用了为多摄像机配置的BEV语义分割任务提出的BEVSegFormer架构,并在nuScenes验证集中实现语义分割任务的当前最佳水平(SOTA)。

一些行业专家认为,因为Transfromer过去对这个领域有更好的全球感知,因此,总体特征可以很好地提取出来,它可以作为骨骼网络,它也可以用于BEV转换。BEV+变压器联合使用,优势会更加明显,它很可能成为业界的趋势。
在自主感知中,目标检测是一个重要的任务。
所有下游跟踪、预测、规划和控制任务都需要目标检测来“建立地面”,所有下游任务都是在3D空间完成的,因此,强大的3D检测能力是自驾驶安全的保证。
在实际应用中,纯粹的视觉编程面临“没有一个维度”的二维三维推导的挑战。当常规程序进行3D测试(例如FCOS3D),首先,做二维目标检测,通过激光雷达测定的实值训练神经网络,对二维目标的预测深度进行了预测。它被用来检测三维目标。
3D目标检测可以直接在BEV空间中进行,避免预测深度的过程,实现起来更简单。例如,二维检测算法DETR在DETER3D的三维目标检测中略有修改。算法的复杂性大大降低,在NuScenes数据集中也实现了当前最佳水平检测效果(SOTA)。

注意:DETR3D是由MIT、清华大学、理想汽车和丰田科技学院合作开发的,现在代码是开放源代码。
DETR3D论文的感官结果表明:由于在BEV空间中收发器的融合效果更好,DETR3D大大提高了摄像机附近的大型被拦截物体(如卡车)的检测速度(关键检测指标NDS,FCOS3D:0.317,DETR3D:0.356)。
此外,在BEV空间中目标检测更容易实现“没有过载,没有泄漏”。
智能机器人朱雅伟说:“目标检测最重要的事情是“没有过载,没有泄漏”。在2D图像空间内,由于透视效应,遮挡严重,易于组合和检测泄漏;在BEV空间中,做到不重合很容易,只要遵循物理世界规则,拆卸重新整合的感官目标;不要进行泄漏检查,如果单帧图像被完全封锁,那是不可能的,但是,加上时序信息,即使在某些框架下被封锁,如果它不总是被封锁,它可以在BEV空间中被“大脑填充”。就像人开车一样,几秒前,我在路边看到一辆汽车,几秒钟后,汽车被堵住了,但我们知道它在几秒内会回来的。
作者有一个问题:如果在BEV空间中检测有许多优点,那么并不是所有的感官任务都可以在BEV空间中完成,而且传统的感官任务,如二维检测和语义分割也具有“用途”吗?
目前看下来,2D感知任务并不会完全被“弃用”,还是会与BEV空间内的检测任务结合进行使用。
鉴智机器人科学家朱政认为,一般的检测任务,如动态车辆、行人和静态车道线等,当然更适合在BEV空间内做,但也有些是在BEV空间内做不了或者更合适在2D空间内做的感知任务,比如红绿灯检测。
牛顿还认为传统的2D检测和图像分割任务实际上可以被用来辅助提高BEV感知任务的性能,并且可以根据下层的不同要求进行不同的安排。
那么,二维感知的结果如何与BEV空间相符?
对于这个问题,地平线架构师刘景初在线上分享中提到,其实关键是要找到2D检测结果在BEV空间的映射关系,且这些映射关系要在不同的场景下表现得足够鲁棒,这是比较难的,需要很多后处理规则。
当BEV空间被目标时,对于被遮挡区域,敏感的模型是基于先前的知识,封锁的“头部填充”目标。这种“大脑补充”功能,毫无疑问,这非常令人惊讶,地平线的建筑师刘建平在一行中分享,人们认为这种想象是“感知范式的转变”。
那么,如何利用“脑补充剂”的感官结果来最大化其效果呢?
业内专家普遍认为,对于神经网络所“想象”出来的感知结果,应该和实际看到的感知结果做好区分,比如可以让感知结果输出时带一个“置信度”的标签,告诉下游这个结果到底是实际看到,还是“脑补”出来的。
在底部,不同程度的信任度的结果的“可靠性”是不同的,而且在使用时也可以选择,例如在使用时有某些限制的情况下使用低可靠性的感官结果。
刘景初在线上分享时提到,对于低置信度的感知结果,只能用一些比较粗糙的信息,比如车道线是不能用的,但是如果前面有个路口,能看到人行横道,那么大概率两边会有延伸出去的道路,这个感知结果就是可以用的。
明水银行的潘兴也认为,在复杂拓扑结构的道路环境下,“脑子填充”路段的准确性非常普遍。“经常出错,例如,在一条小路口,“大脑修补”会延长车道,或者把等候区的车队“脑子充满”成路面车队,对于这类识别结果,不使用毫米的选取,它甚至直接选择不输出这些“大脑填充”路径感官结果。
鉴智机器人的朱政认为,“脑补”出的结果,可以作为隐变量或者放在隐空间存储起来,交给模型自行判断使用,而不去加太多人为规则去约束。
在BEV空间中,时间序列融合后形成的4D空间除了上述外,可以为暂时封闭的对象取得更好的跟踪效果,还可以更方便地测量移动对象的速度和运动预测。
除了具有自跟踪功能的传感器,例如毫米雷达,其他传感器很难根据特定时刻的信息测量,一旦时间序列信息被集成,视觉可以达到稳定的速度。
在2D图像空间内,一般采用光流法(Optical Flow)进行测速。
光学流法在视频流中用以计算一个目标对象的运动速度,用一个代表同一目标对象的帧到下一个帧的像素点数来计算。
根据光流的估计,图像的选择点是稀疏或密集的。可以将光流估计分为稀疏光流(Sparse Optical Flow)和稠密光流(Dense Optical Flow),通过选择左边显示的稀释光流的明显的特征来估计光流。右图是连续帧密度光流的图.
密度光流描述了图像中的每个像素向下帧移动的方向和速度。为了方便识别,光流的大小和方向由不同的颜色和亮度表示,例如黄色表示向下移动,紫色表示向上移动,速度越快,颜色越深。

在BEV空间内,由于可以在目标对象的每个帧下直接访问特定位置信息,此外,前后帧的时标信息,很容易找到目标物体的速度,“可获得位置信息的速度,然后由毫米雷达提供的速度 fused,这将使结果更加准确,”一位行业专家说。
毫末智行潘兴认为,也可以在模型训练时,把速度信息直接标注上去,让车端模型根据前后帧的信息自行推理出来,“有了4D信息后,速度的真值也比较容易获取,训练起来更容易一些”,潘兴说道。
自驾驶系统需要与道路交通参与者互动,预测他们未来的行为,以便他们能够适当地规划和控制自己的车辆。
云端具有四维空间-时间信息,像预测未来的超级力量一样,能够准确地知道每个目标对象的下一个运动路径,这些信息可以用于训练神经网络,允许模型根据过去的历史信息预测目标对象的下一个运动路径。
传统的算法首先有意义,再做运动预测,与此同时,还有更多的规则来处理所感知的结果。一方面,这将增加许多人的工作逻辑,增加以后调整的难度,另一方面, 处理也丢失了许多有效的信息.神经网络是从感知中直接传递到运动预测中。所有都是在BEV空间中完成的,减少信息损失的同时,你也可以从头到尾优化,减少了人工逻辑,这大大提高了数据迭代的效率。
以前,有一些涉及end-to-end感知联合预测的实践。
英国自走式企业家Wave和剑桥大学提出的FIERY网络,它还基于纯视觉方法,通过端到端的方式,通过摄像头输入,直接在BEV空间预测每个目标的运动轨迹(motion trajectory),然后给出了某一特定轨迹的概率。
下面是FIERY BEV网络运动预测的图表。上述两台行为摄像机输入在BEV空间下物体的预测轨迹。

Beverse是与认知机器人和清华大学团队合作开发的,利用外围摄像机的视频流为BEV空间多任务模型感知任务的输入,除了动态感知和局部语义地图外,还进行运动预测。

实质上,从2D图像到BEV空间的转换是寻找映射关系,将2D图像的每个像素投影到3D空间,这样图像的密集语义信息可以保存在BEV空间中。
一般来说, 当转换成BEV时, 使用网格分离机制.
具体转换过程,上面的详细说明,虽然转换过程的原则并不困难,但转换过程(如合并)需要大量的计算力,主要是因为摄像机的特征点云密度非常大,例如,有200万像素的摄像机,每个帧产生两百万特征点云,云的密度比激光雷达高得多.
所以,为了提高转换效率和节省算力,一般会限制网格的数量,这就需要预先设置好网格参数,主要是网格间隔(grid)和x/y轴的范围(range)。
这就带来了一个挑战,那就是如何在网格间隔参数设置时兼顾近处和远处、大目标和小目标。
网格间距参数设置为大,BEV空间的特征颗粒度大,虽然计算速度更快,但细节并不丰富,如果网格参数小,颗粒度小,尽管细节丰富,但计算规模大。
由于终端计算的局限性,如果你想了解距离足够远,网格不能设置为特别小,而网格大的话,你可能会丢失很多细节,可以错过小目标,这需要一个妥协计划,还需要对网络的设计进行精细调整,使用一些人工规则或添加一些训练技巧。
纽劢的符张杰介绍:“可以对远处目标或者小目标加以更大的损失权重,这样网络就会更加关注远处目标或小目标,也可以利用多尺度的特征来解决这个问题。”
在BEV空间的多头感知任务中,不同的任务根据网格采样的粒度和范围的要求而有所不同,可以根据具体任务设置网格和范围参数,BEVSegFormer、智能机器人和清华大学团队共同提出的BEVerse网络架构体现了这一理念。
在BEVerse的多任务模式中,在语义地图的感官任务中,因为车道一般很薄,采样网格设置和x/y轴范围设置应相对较小(x轴范围为[30米,30m],y轴为[-15m,15m],间隔为0.15米),在3D目标检测任务中,网格和范围可以设置略大(x轴和y轴范围为[-51].2m,51.2m],间隔为0.8m)。
智力机器人朱法官说,可以适应不同的场景,不同范围的采样(x/y轴),他说:“为了考虑到传感器范围的功能需要,例如,一些功能仅在公路上开放。因此,要更多地关注遥远的目标,如果只是在城市里开放,因为车速低,你不需要远离关注范围,这能节省一些计算能力。
由于目标检测在BEV空间中有许多优点,我们如何在BEV空间中训练模型?
汽车BEV网络的训练方法是传统的监督学习方法,但不同之处在于,与传统的2D感知任务不同,在2D图像空间中进行标记时,在BEV空间中进行标记所需的真值。
根据行业专家的说法,BEV培训的最大挑战是产生需要训练神经网络的真价值(Ground Truth)。
训练所需的真值数据,是从车端的影子模式下回传的视频流数据中,通过数据挖掘筛选出有价值的corner case数据。这部分数据再进入云端真值系统。
云端实值系统的功能是首先进行三维重建,转换为BEV空间,然后进行时间序列融合,形成四维空间数据,然后进行自动标记。
最后, 经过人工质量控制(QA), 形成必要的真值.
4D空间的实值数据可以用来训练汽车尾部的BEV感知模型,然后在训练完成后部署到汽车尾部,然后连续重复形成一个闭环。
具体过程可见下图。

值得一提的是,上述的链路,尤其是车端影子模式+云端真值系统相结合的方式进行模型迭代形成数据闭环,更像是个“理想链路”。受限于实现技术难度和合规性,目前真正能够实现完整闭环的玩家,可以说是少之又少。
目前,使用激光雷达+视觉实值车辆收集数据、制作组合的4D标记训练和迭代模型,并部署到车辆末端的自建收集团队更为常见。
对于感官任务, 精度在下游是十分令人担心的.
由于在距离方面缺乏视觉前兆,因此在BEV空间中提高感知精度是至关重要的,这与模型训练是不可分割的。
基于行业专家的实际经验,为了提高车辆端BEV传感器模型的精度,一般采用以下三个方面:
有监督学习模式下,训练数据的准确度决定了训练模型的准确度限度。对于BEV感知模型来说,云端真值生成系统是“教师”,为了提高汽车末端的BEV感知模型的“学生”水平,这个“教师”的水平对于提升负责3D重建和自动标记的云端实值系统至关重要。
云端“教师”的三维重建功能,他们也需要通过数据进行培训,为了使“教师”数据具有足够高精度,使用激光雷达的实值车辆通常用于收集实值数据进行训练。地平线的做法是,为了 取得 更好 的 重建 效果,实值车辆将用于收集同一地点不同驾驶方向的数据。
除了提高“教师”培训数据的准确性外,当企业使用云端实值系统执行遥感任务时,不遗余力去做一些感应融合处理,例如,集成其他传感器数据(激光雷达、毫米波雷达等)和时间序列信息,从而得到BEV空间的完整的4D重建场景,这是用来训练网络末端的实际值。
如果在汽车末端传输的数据中存在激光云,数据精度会更高,效果也更好,如果没有激光点云,它也可以依靠视觉来进行三维重建。据了解,基于视觉数据,实现了云端的三维重建数据的准确性。它也可以满足最终模型的培训要求。而且,由于当前的激光雷达较小,位置差较大,目前,工业仍使用基于视觉数据的三维重建。
在BEV空间下标注时,为了提升标注效率和标注精度,也会先用云端真值系统自动标注做预处理,完成后再人工进行校验,使真值的精度达到近似人类驾驶员能达到的精度。
影子模式下,车端会设置很多触发器(trigger)的策略,采集有价值的数据回传到云端。
在云端进行数据挖掘后,找到有价值的corner case,然后重新去做真值生成,并通过数据驱动对车端网络进行训练迭代。
毫无疑问,训练数据覆盖的场景越多,汽车末端模型的推广能力越大,感知精度越高。 训练数据的质量比训练数据的数量更重要,即数据需要覆盖更极端的场景,例如不同的城市道路、不同的光条件等等。
除了在汽车侧的阴影模式和自组装的收集团队中收集数据之外,还有一种更有效的数据收集方法,这是 Tesla AI Day去年提出的。

除了上述两点外,汽车末端模型架构的设计也是很重要的,建筑的好坏直接决定了网络的效率和功能水平。
不过受访的多位专家也提到,对于BEV感知而言,并不需要一味地提升感知精度,最主要的评价指标还是看能否满足下游的需求。
事实上,对于感知的准确度的需求可能并不那么高,就像人们开车一样,附近的物体的准确度可能略高,而对于远处的物体来说,追求过多的准确度是不需要的。
“BEV空间的视觉算法的精度相当准确或非常准确,”一位面向视觉的专业人士表示它基本上可以控制几个百分点的错误。当人们开车时也是一样。大约有200米远的地方。它的准确距离是200米或220米,其实区别并不大。”
在当前的高级智能驾驶系统中,高分辨率地图提供的语义信息,包括道路拓扑结构 、 路段 、 速度限制要求等;使智能驾驶系统能够更好地理解现实世界驾驶规则,它也让许多人认为高分辨率地图是高级智能驾驶之路不可或缺的一部分。
不过当前大部分的高精地图,都是使用采集车得到的以点云为主的数据进行标注得来,地图的构建和维护成本都很高。
HDMapNet, BEVSegFormer, BEVerse等。它可以基于多摄像机的信息,BEV空间中的静态物体,如车道、路边、斑马线等,在线生成下游控制任务的本地语义地图,大大降低了语义地图的建设和维护成本.这将为工业提供一种新的地图制作和更新模型。

目前的高速NOA仍基于高清晰度地图,但当功能扩展到城市NOA时,城市道路尚未被高清晰度地图覆盖。
许多行业专家认为,BEV在线构建的语义地图可以在一定程度上取代高清晰度地图的作用,并在城市NOA中发挥重要作用。
Tracking Technology发布的城市内存导航功能也使用“单车多车”内存模式,并使用车侧传感器(不需要激光雷达)实现特定通勤路线的语义地图的构建和更新,从而在上班途中可进行该特定路线的点到点导航。

虽然在理论上,该方案的可行性并不是一个大问题,但实际登陆有许多挑战。
最大的挑战是精度,相比于高精地图,BEV语义图的准确性略微不足,在传统的智能驱动算法架构中,下面的控制任务依靠高分辨率地图提供准确的驱动线,面对“不太精确”或“正向大方向”的语义地图上,要保证通过率,下级控制逻辑也需要相应调整.
不过,这不是说地图完全不需要,毕竟,地图是超视觉传感器,也可以预测下一个交界点前面的道路的地形。城市记忆导航辅助设备的跟踪技术,只有当某一特定路线的语义地图成熟和完成时,可以启用内存导航功能.
只有在将来,地图的精确度不会像当前的高分辨率地图那样高,一些专家说,将来的导航地图可能可以添加一些语义信息
在不同的大规模生产型号中,摄像机的数量、安装位置和具体参数有很大差异。使用传统的分离后策略,这些定制的传感器调整带来了巨大的工作量。
那么, BEV空间合并时会有什么区别吗?
一方面,在适应不同的模型时,与传统的融合后有什么区别吗?
另一方面,不同生产模型的返回数据可用于连续迭代统一的BEV感知模型吗?
由于传统后融合太依赖人工后处理规则,在传感器适配时,有诸多的无比痛苦的定制化工作,可能安装位置或者视角稍微调整一下,就需要花大量的时间适配。
与重整合方案相比,BEV感知模型由于人工规则较少,具有较好的一般化能力,虽然需要一些调整,但总的工作量仍略大。
一位行业专家说:“在新型的摄像机中,摄像机的位置已经改变了,现在是重新定位摄像机并训练它收集数据的时候了。
为了提升BEV模型的泛化能力,一般可以通过预先设置结构化参数来适配不同车型(比如安装高度、安装位置、角度等),这样就可以在模型训练时排除相机内外参的影响。
不过也有一些模型,如BEVerse等,尝试把相机的内外参作为信号输入,直接给到模型进行训练,让神经网络自己去学着利用这些信息做适配,这样适配会更加方便,不过这也对BEV网络架构的设计提出了更高的要求。
工业专家普遍认为,虽然不同模型的摄像机在位置和数量上可能不同,但返回的数据(如图像和视频流)可以在转换到BEV空间后轻松地用于训练BEV模型。
只要考虑到位置上的差异,在使用汽车末端摄像机数据时,必须处理多摄像机再集成部分。
事实上,环形摄像机的范围没有太多的重叠部件,在几个不同的FOV前面的摄像机会有更多的重叠部件。
为了处理这种重新整合,可以采用拼接技术。每个图像都有自己的特征,数据采集后,首先,根据图像的特点,对特征点相似的图像进行特征匹配(图像匹配),从而找到邻接图并将相邻的图像拼接在一起(图像拼接),然后将具有不同分辨率相同的特性的图像融合(图像融合)。完成图像融合后,你只需要将相邻的帧汇成一个视频(视频融合),整个过程就完成了。
具体过程在下图所示。

图像匹配过程的关键环节是图像特征点的获取和匹配,这可以通过SIFT、Surf等方法实现,但为了提高计算效率,在工业中通常通过分耦(类似于降低分辨率)进行特征检测。
在图像融合中,一般采用松算法、直接平均算法和权重算法,而直接平均算法在工业中的应用越来越多。
除了上述图像解析,为了消除不同模型之间的差异,该行业还使用一种叫做虚拟摄像机的方法分享培训数据,“这意味着将图像投影到标准角度(训练中使用的角度),投影后的摄像机叫做虚拟摄像机,这将确保数据传输和培训数据得到同样的看法,”一位行业专家说。
除了上述观点之外,一位行业专家也提到ISP( Image Signal Process, 图像信号处理)的处理也可能会影响数据的通用性。不同的摄像机有不同的 ISP,原始数据的处理也不同,虽然它可以通过技术手段解决(例如通过图像预处理以统一到相同的颜色空间),但它也可能影响到感知结果,“就像用透镜看世界一样鉴于 一般 对象 不能 受到 影响,看看红绿灯可能受到影响,”这位专家解释道。
在传统的2D测试中,检测、分类和跟踪任务,都依赖于受监督的学习培训,换句话说,感官网络只能识别以前被“看见”的对象。对于尚未“看到”的对象(即没有在训练数据集中),是识别不出来的,这导致了无知和无见的现象。它也被认为是“早期出生缺陷”的视觉。例如,罕见的外星物体,如披萨盒,野生动物在高速跑,等等,这种事件的可能性并不高,但一旦出现,它可能致命。
那么,在转换为BEV空间后,问题是否可以解决?
行业专家同意:不。
BEV模型中未训练的对象在BEV空间中可能“不存在”。
不过仍然有其他办法来弥补这个缺陷,具体如下:
当前在2D感知方案中应用比较广泛的是底层视觉感知(low level vision)中的深度估计。
深度估计通常由激光雷达薄点云提供的实际值进行训练,通过深度学习直接预测密度深度值。 通过深度预测,可以在一定程度上解决异质物体的问题。
如下图所示,右边的树木的大型汽车不能通过常规车辆测试检测,因为这种训练样本很少,而是通过使用深度估计,至少知道有物体存在,并及时采取措施避免安全事故。

在BEV空间中,可以估计底部视觉静态感知的深度,转换为道路表面的海拔信息。下面的图表显示了一个被感知的帧的结果,蓝色表示路面,高度比较低,红色表示凸起,红色越深,海拔越高,你可以在地面上看到一些凸形物体,可根据确定的对象类别规划后续决策,如果有无法辨识的外来物体,那么最安全的方法就是避免它。

类似的原理被应用于视觉雷达,该雷达通过向前望远镜和圆形摄像机产生深度信息来产生密集的斑点云,并在BEV空间进行目标检测。

当然,基本视觉感知的深度估计并不是全能的,如果你遇到一个未经训练的数据,它可能在特征提取过程中被忽略,因此解决这个问题的另一个方法是数据驱动。
数据驱动器依赖于数据闭环工具链,每个公司都开发了工具链系统,如毫米智能线LUCAS、水平AIDI等。
4.1.3.多传感器冗余
在纯视不能保证100%安全的情况下,多传感器冗余方案已成为许多主要机械厂的选择,尤其是激光雷达,这是一个非常好的视觉补充。汽车安装了激光雷达后,由于数据的准确性更高,为可视化提供更好的实值数据,它还可以更好地训练视觉算法。
正如郭建宗在线上分享中提到的那样,在设计系统时,必须考虑传感器冗余、硬件堆栈等因素,而不保证系统安全,也是“系统设计的公正”。
总体而言,BEV是一个新的认知范式,并且有许多空间可以向上向下扩张(如位置和预测),许多行业企业也在积极探索这一做法,但仍有许多挑战要克服。
上文也提到了,BEV的认知中最困难的部分是如何获取更多的维度数据,并产生高质量的实际价值。除了变换器本身的特性之外,为更好地发挥优势,它的数据量需求比传统的凸神经网络要大得多.这进一步加剧了模型对数据的“饥饿 ” 。
为了迎接这一挑战,一方面依靠汽车末端影子模型不断收集数据,另一方面也依赖云系统进行数据挖掘和实值生成,这需要持续优化云实值系统算法。
此外,在云端系统中也引入了自我监控学习,以减少作业量和提高培训效率。
与监控学习不同,监控学习的实值信息不是人工标记的,而是算法自动构建监控信息(实值)来进行监控学习或训练。 目前的监控学习已经应用于数据挖掘、数据注释和神经网络预训练。
4.2.2.计算功率消耗
同时,由于采用转光器转换BEV空间需要大量的计算力,因此汽车端的有限的计算力构成了挑战。
目前,优化有两个主要方向:
图像处理中,使用Transformer的计算复杂度与图像尺寸的平方成正比,这会导致,在图像很大的时候,计算量过于庞大。
如何减少变形器的计算复杂性,不影响其所感知的精度,并节约车端的计算能力,已成为学术界和工业界共同关心的问题。
为了解决这个问题,我们可以使用传统的CNN模型压缩技术来减少计算的复杂性,例如:
切枝:深层学习模型可以被看作是一个复杂的树状结构,可以通过减少一些对结果影响不大的副枝而减少这种结构。
量化: 深层学习模型由大量的浮量参数组成.如果低精度型号(例如int 8)能取代原型高精度型号(例如 float 32 ) 的权重参数,因此模型的体积会非常压缩,低级浮点计算速度远高于高级浮点计算速度。这也是实现压缩的最简单的方法。
此外, 学术界也有一些最新的工业参考结果.
使用移动窗口操作(Shifted window scheme)、具有层级设计的(hierarchical architecture)的SwinTransformer,计算复杂度可以大大降低到输入图像大小的线性计算.在各种图像任务中也有很好的表现,因此,SwinTransformer可以作为骨架网络使用。
借鉴了DCN(Deformable Convolutional Networks,一个可变凸网的概念,Deformable DETR将DETR中的注意力机制替换成可变形注意力机制(与全局(global)&密集(dense)的注意力机制不同,变形的注意力机制可以集中于特征相关区域并捕获信息。从而实现局部(local)&稀疏(sparse)的高效注意力机制),为了提高 DETR模型的检测效率,融合的速度也大大加快了,并且给了业界启发,你可以将变形的注意力归纳为一般,形成了Deformable Transformer。
除了上述模型压缩技术外,还有一种常见的技术,就是共享权重,有点像提取公因数,假设模型的每个层都有一个共同的因子数,是否可以为一个操作提取它,而不是同时计数每个层,如共享骨干网络等,这就是应用普遍的多任务模型(Multi-Task learning)。
最著名的多任务模型是泰斯拉的HydraNet,该模型同时执行三个任务:目标检测、红绿灯检测和车道检测。

使用多任务模型的最明显的优点是,从共享特性中提取的网络参数避免了大量计算重复,大大提高了效率。
除此外,多任务模式也有额外的好处,有时可以加快网络的培训过程。因为分享网络的感官任务是紧密相关的,例如,跟踪线检测和动态目标检测,训练某项任务时,也加强了从共享网络中提取功能的能力。对其他任务的性能改进也是有益的。
在训练多任务模型时,是否有可能不同的任务“相互伤害”和“消失”?
正如苏州的地平线共享中提到的那样,这是可能的,但对于这个问题有技术解决办法。例如, 一个任务对另一个任务会造成很大的伤害.就可以降低这个任务的学习速率(learning rate),降低它的权重,如果实在无法兼容,还可以创建一个新的模型来单独训练任务
例如,BEVerse是一个在BEV空间执行的多任务模型感知任务,完成三个任务:3D目标检测、局部语义地图和运动预测,每个模块达到当前的最优水平(SOTA)。
与传统的2D图像检测相比,BEV感知算法更加复杂,特别是上述云端的3D重建、4D空间标记、真值生成和模型训练,这些技术在以往的2D感知任务中没有出现,因此难度和阈值自然较高。
不过,朱政也提到,由于 BEV的感知没有进入每个人的视野太久了,各家还在摸索中,有些算法不太成熟,当后续生产实践有所增加时,开放源代码工具也增长缓慢。门槛也会慢慢降低,“大约4或5年前,二维感知也不太好。不过现在成熟多了,有很多开源的算法,工具链也很成熟了,这个门槛看起来并不高。”
随着 BEV 和 Transformer 等 许多 视觉 算法 的 开发, 视觉 能力 大大 增加 。
许多行业专家也提到,甚至有激光雷达的大规模生产车辆,当数据在云端处理时,还是会以视觉为主,“毕竟,与激光雷达(如薄云、缺乏语义信息等)的缺点相比,视觉优势很明显,此外,摄像机的数量也更大,产业链更加成熟,后续升级也更方便,例如,从8百万像素升级到16百万像素是很容易的。即使是现在,移动摄像机的像素也超过十亿。一位专家告诉第九章,要开得明智.
在九章之前,在采访进入L2预包装市场的L4公司的首席执行长时,对方也提到,过去的激光雷达点云和视觉辅助方案具有其历史性原因,因为基于深度学习的视觉算法当时还不够成熟,支持深度学习的大型算术平台尚未成熟,不过目前,L4方案的视觉成分越来越重,即使在将来, 也有可能超过激光雷达.
当图像转换为BEV空间时,并直接介绍了激光雷达和毫米波雷达的研究方法和进展。如果未来超出了 ISP,直接输入RAW数据到传感器模型中,在极端条件下(极端黑暗和极端亮度)能进一步提高视觉的感知,可以想象,未来将有更大的远见发展,让我们拭目以待。
本文由 在线网速测试 整理编辑,转载请注明出处。