22篇入选CVPR 2020，百度 15 篇精选论文详解

最后更新：2020-03-21 11:15:34 手机定位技术交流文章

|百度

|韦嘉

近日，计算机视觉领域的“奥斯卡”CVPR 2020正式公布了论文征集结果。随着提交数量的急剧增加，接受率开始经历一个持续下降的过程。今年，在6656份有效提交的论文中，共收到1470篇论文，接收率约为22%，与去年25%的入学率相比，下降了3%。在

大会上，百度选择了22篇论文，涉及人脸检测与识别、视频理解与分析、图像超分辨率、自动驾驶中的车辆检测、场景实例级分割等领域以下是15篇精选论文

1，face detection & Recognition

paper:hambox:delving in online high quality anchors for detection outer face

最近，针对人脸检测器使用锚点来构造分类和坐标框架回归的组合的多任务学习问题，有效的锚点设计和锚点匹配策略使得人脸检测器能够准确定位大背景下的人脸本文中，百度提出了一种在线高质量锚点挖掘策略HAMBox，该策略可以用高质量的锚点对异常的外部人脸进行补偿。HAMBox方法可以作为基于锚点的单步人脸检测器的通用优化方案。该方案在WIDER FACE、FDDB、AFW和PASCAL Face多数据集上的实验表明了其优越性。与此同时，该计划在2019年国际知名的宽面和行人挑战赛中以57.13%的地图赢得冠军。

论文:FaceScape:一个大规模高质量3d人脸数据集和详细的可装配3d人脸预测

本文发布了一个大规模高精度3d人脸模型数据库facescape，并首次提出了一种从单个图像预测高精度和可控3d人脸模型的方法。FaceScape数据库包含大约18，000个高精度三维面部模型。每个模型都包括一个基本模型、一个4K分辨率的位移图和纹理图，它们可以代表人脸极其精细的三维结构和纹理。与现有的公共3D人脸数据库相比，FaceScape在模型数量和质量上处于世界最高水平。在FaceScape数据库的基础上，本文还探索了一个具有挑战性的新课题:以单幅人脸图像为输入，预测一个高精度、表情可控的三维人脸模型。该方法的预测结果可以通过表情操作生成精细的人脸模型序列，生成的模型在新的表情下仍然包含逼真的细节三维结构据报道，FaceScape数据库和代码将在不久的将来免费发布，用于非商业性学术研究。

论文:用于人脸识别的分级金字塔式多样化注意力网络

目前主流的人脸识别方法很少考虑不同层次的多尺度局部特征因此，本文提出了一种分层金字塔式的多元化注意力模型当面部的整体外观发生巨大变化时，局部区域将发挥重要作用。最近的一些工作已经应用了注意力模块来自动定位局部区域。如果不考虑多样性，学习到的注意力通常会在一些相似的局部块周围产生冗余响应，而忽略其他具有辨别能力的潜在局部块。此外，由于姿势或表情的变化，局部块可能以不同的比例出现。为了缓解这些挑战，百度团队提出了一种金字塔式多样化关注模块，能够自动、自适应地学习多尺度多样化的局部表征更具体地说，开发了一个金字塔注意模块来捕捉多尺度特征。同时，为了鼓励模型关注不同的局部区域，开发了多样化的学习方法。其次，为了融合局部细节或来自较低层的小规模面部特征地图，可以使用分层双线性池来代替连接或添加。

2，目标检测与跟踪

论文:关联-3d检测:感知-概念关联用于3d点云对象检测

目标检测技术是机器人和自动驾驶领域中最重要的模式识别任务之一。提出一种域自适应方法来增强稀疏点云特征的鲁棒性更具体地，来自真实场景的特征(感知域特征)与包含丰富细节信息的完整虚拟点云特征(概念域特征)相关联。这种领域自适应特征关联方法实际上是模拟人脑感知物体时的关联功能。该三维目标检测算法增强了训练过程中的特征提取能力，并且在推理阶段不需要引入任何额外的组件，从而使得该框架易于集成到各种三维目标检测算法中。

论文:用于基于点云的三维视频对象检测的中性消息传递和注意力时空转换器基于单帧点云的三维目标检测器通常无法处理目标遮挡、长距离和非均匀采样等情况，而点云视频(由多个点云帧组成)通常包含丰富的时空信息，这可以提高上述情况下的检测效果。因此，本文提出了一种端到端的在线三维点云视频目标检测器本文提出的支柱消息传递网络可以将点云顶视图下的非空网格编码成图节点，并在节点间传递信息，动态提高节点感受野。PMPNET能有效地将图形空间的非欧洲特征与有线电视新闻网的欧洲特征结合起来。在时空特征聚合模块中，还提出了时空注意机制来增强原始Conv-GRU层。空间注意机制在新的存储器上执行前景增强和背景抑制，时间注意机制用于对齐相邻帧中的动态前景对象3D点云视频目标检测器在nuScenes大型参考集中取得了领先的效果。

论文:用于有效在线多目标跟踪的统一目标运动和关联模型

使用单目标跟踪器(SOT)作为运动预测模型来执行在线多目标跟踪(MOT)是当前流行的方法，但是这种方法通常需要额外设计复杂的相似性估计模型来解决相似目标干扰和密集遮挡等问题。本文采用多任务学习策略将运动预测和相似性估计到一个模型中。值得注意的是，该模型还设计了一个三重网络，可以同时进行目标识别分类和排序。网络输出的显著特征使模型能够更准确地定位、识别目标和关联多目标数据。此外，提出了任务特定注意模块，以强调特征的不同上下文区域，并进一步增强特征，以适合SOT和相似性估计任务。该方法最终获得了低存储量(30M)和高效率(5FPS)的在线MOT模型，在MOT2016和MOT2017标准测试集上取得了领先的效果。

3，视频理解与分析

论文:actbert:学习全局-局部视频-文本演示

受bert自我监控培训的启发，百度团队进行了类似的视频和文本联合建模，并基于叙事视频进行了视频和文本通信的研究对齐后的文本通过现成的自动语音识别功能提供，这些叙事视频是视频文本关系研究的丰富数据源。ActBERT增强了视频的角色特征，可以发现细粒度的对象和全局动作意图百度团队验证了ActBERT在文本视频片段检索、视频字幕生成、视频问题解决、动作分割和动作片段定位等许多视频和语言任务上的泛化能力。ActBERT明显优于最新的视频文字处理算法，进一步证明了其在视频文本特征学习中的优越性。

论文:高效交互式视频对象分割的内存聚合网络

本文旨在设计一个快速交互式视频分割系统。用户可以根据某一帧视频在物体上画一条简单的线。分割系统将分割整个视频中的对象。以前，交互式视频分割方法通常使用两个独立的神经网络来分割交互式帧，并将分割结果分别传输到其他帧本文将交互和传导集成到一个框架中，采用像素嵌入的方法。在视频中，每帧只需要提取一个像素嵌入，效率更高。此外，该方法使用创新的内存存储机制将以前交互的内容应用于每个帧并存储它们。在新一轮交互中，读取存储器中相应帧的特征图，并及时更新存储器该方法大大提高了分割结果的鲁棒性，在DAVIS数据集上取得了领先的结果

论文:联合自监督临时域自适应的动作分割

虽然在动作分割技术的全监督领域取得了新的进展，但其性能仍然不足一个主要的挑战是时间和空间变化的问题(例如，不同的人可能以不同的方式执行相同的动作)因此，本文采用未标记视频来解决这个问题。该方法是将动作分割任务重新设计成跨域问题，跨域问题主要针对时空变化引起的域差异为了减小这种差异，提出了“自监督时域自适应(SSTDA)”方法，该方法包括两个自监督辅助任务(二进制和序列域预测)，在时域内联合对齐和嵌入不同尺度的动态跨域特征空间，从而获得比其他域自适应(DA)方法更好的效果。在三个具有挑战性的公共数据集(GTEA、50沙拉和早餐)上，SSTDA远远领先于当前最新的方法，并且仅需要65%的标签训练数据来获得与当前最新方法相当的性能，这也表明该方法能够有效地利用未标记的目标视频来适应各种变化。

4，图像超分辨率

论文:基于通道注意的深度图超分辨率迭代学习随着深度信息应用范围的增加，深度图像超分辨率引起了研究者的广泛关注。深度图像超分辨率是指在低分辨率深度图像的基础上获得高质量、高分辨率的深度图像。提出了一种深度图像的超分辨率方法，分析了低分辨率深度图像的生成方法，并提出了两种模拟低分辨率深度图像生成的方法:带噪声的非线性插值下采样生成方法和区间下采样生成方法

对于不同类型的低分辨率深度图像，本文采用以低分辨率深度图像为输入的迭代残差学习框架，以由粗到细的方式逐步恢复高分辨率深度图像的高频信息。同时，信道增强策略用于增强包含更多高频信息的信道在整个学习框架中的作用。此外，多阶段融合策略还用于有效地重用从粗到细过程中获得的有效信息。最后，通过TGV约束和输入损失函数进一步优化获得的高分辨率深度图像该方法能有效解决深度图像的超分辨率问题。与目前已知的方法相比，效果明显，优势明显。

5，vehicle identificati on

paper:3d part guided image editing for fine-graded object understand

在自动驾驶场景中，准确感知车辆的“特殊”状态对于驾驶安全非常重要(例如，当车门打开时，乘客可能会下车，闪烁的尾灯意味着即将更换车道)为了解决这一问题，本文提出了一种新的数据合成(增强)方法，即通过对齐的组件级三维模型在二维图像中编辑车辆，自动生成大量车辆图像和语义标注结果，处于“特殊”状态(例如，车门打开、行李箱、发动机罩、闪烁的前灯、尾灯)根据生成的训练数据，本文设计了一个双向骨干网络，使模型可以推广到真实的测试数据。与传统的模型渲染方法相比，该方法平衡了领域差异问题，更加轻量级和方便

为了验证该方法的有效性，本文构建了CUS数据集，对真实街道场景下的1400幅特殊状态车辆图像进行了标注实验结果表明，本文提出的方法能够有效地检测出“特殊”状态车辆，在实例层次上分割整辆车，分割部件的语义，描述状态，对自动驾驶的安全决策具有重要意义。

6，神经网络结构搜索

论文:gp-nas:基于高斯过程的神经结构搜索

通过深度神经网络的自动模型结构搜索。神经架构搜索在各种计算机视觉任务中超越了人工设计模型结构的性能。本文旨在解决网络连接存储中的三个重要问题:(1)如何度量模型结构与其性能之间的相关性？(2)如何评价不同模型结构之间的相关性？(3)如何从少量样本中学习这些相关性？为此，本文首先从贝叶斯角度对这些相关性进行建模

首先，介绍了一种新的基于高斯过程的关联分析方法，并通过定制的核函数和均值函数对关联进行建模此外，可以在线学习均值函数和核函数，以实现不同搜索空间中复杂相关性的自适应建模此外，通过结合基于互信息的采样方法，可以用最少的采样次数来估计/学习GP-NAS的均值函数和核函数在学习了均值函数和核函数后，GP-NAS可以预测任何模型结构在不同场景和不同平台下的性能，并从理论上获得这些性能的置信度在CIFAR10和ImageNet上的大量实验证明了算法的有效性，并获得了SOTA的实验结果

论文:bfbox:搜索面对面和特征金字塔网络的鲁棒人脸检测器

本文提出的BFBox是一种基于神经网络结构的搜索方法，同时搜索适合于人脸检测的特征提取器和特征金字塔。动机是我们发现了一个有趣的现象:为图像分类任务设计的流行特征提取器已经验证了它们在常见目标检测任务上的重要兼容性，但是它们在人脸检测任务上没有达到预期的效果。同时，不同特征提取器和特征金字塔的组合并不是完美的正相关首先，本文分析了较好的特征提取器，提出了一个适合人脸的搜索空间。其次，提出了一种特征金字塔注意模块(FPN-注意模块)来加强特征提取器和特征金字塔之间的联系。最后，采用SNAS方法同时搜索出适合人脸的特征提取器和特征金字塔结构在多个数据集上的实验表明了BFBox方法的优越性。

7，结构设计

论文:用于视觉识别的门控通道变换

本文提出了一种用于深度卷积神经网络的传统且易于应用的变换单元，即门控通道变换(GCT)模块。GCT结合了规范化方法和注意机制，并使用轻量级和易于分析的变量来隐式学习网络通道之间的关系这些通道幅度变量可以直接影响神经元之间的竞争或合作行为，并且可以方便地与卷积网络本身的权重参数一起参与训练通过引入归一化方法，GCT模块比SE-Nets的SE模块轻得多，这使得在每个卷积层部署GCT成为可能，而不会使网络过于臃肿。本文针对几个基本的视觉任务，在几个大型数据集上进行了充分的实验，即基于ImageNet数据集的图像分类、基于COCO的对象检测和实例分割以及基于动力学的视频分类。在这些视觉任务中，GCT模块的引入可以带来显著的性能提升这些众多的实验充分证明了GCT模块的有效性。

8，token learning

paper:用于长尾视觉识别的标签隔离记忆实际场景中的

数据通常遵循“长尾”分布大量类别的数据较少，而少数类别有足够的数据。为了解决类别不平衡问题，引入了用于长尾视觉识别的类别隔离记忆结构首先，LIM增强了卷积神经网络快速学习尾部类别特征的能力通过存储每个类别的最重要类别特征并独立更新存储单元，LIM进一步降低了分类器偏差的可能性其次，本文介绍了一种新的用于多尺度空间特征编码的区域自关注机制为了提高尾类识别的通用性，有必要融合更多的特征。本文提出对局部特征地图进行多尺度编码，并融合背景信息。该方法配有线性模型和区域自我注意机制，在5个数据集上取得了最佳性能。

本文由在线网速测试整理编辑，转载请注明出处。

22篇入选CVPR 2020，百度 15 篇精选论文详解

热门文章

文章分类