CVPR 2020 |RandLA-Net:大场景三维点云语义分割新框架（已开源）

最后更新：2020-03-06 15:31:50 手机定位技术交流文章

CVPR 2020 |RandLA-Net:大场景中3D点云语义分割的新框架(开源)

人工智能科技评论

1583317595

作者|胡庆永(牛津大学)

编辑|韦嘉

CVPR 2020已发布CVPR 2020将于6月14日至6月19日在美国西雅图举行尽管CVPR提交的论文数量在过去三年中不断增加(2018年CVPR提交了3，300篇有效论文，2019年CVPR提交了5，160篇有效论文，2020年CVPR提交了6，656篇有效论文)，但接受率一直是“连续两次下降”(2018年CVPR提交了979篇论文，接受率约为29%)。CVPR 2019包括1300篇论文，接收率约为25%。《CVPR 2020》包括1470篇论文，接收率约为22%)

本文将介绍文章“rand la-net:大规模点云的效率语义分割”

论文链接:https://Arxiv.org/abs/1911.11236

TensorFlow代码:https://github.com/qing胡勇/randla-net

以前的渲染:

然而，由于深度传感器直接获取的原始点云通常是不规则的、无结构的和无秩序的，目前广泛使用的卷积神经网络不能直接应用于这类数据

PointNet是一种面向任务、可学习的下采样方法，自2017年以来可以在不规则点云上直接处理。然而，问题是生成的子集需要在推理阶段与原始点云匹配，这依赖于FPS匹配，因此引入了更多的额外计算。使用全球定位系统对大规模景点云进行降采样需要1200秒，降采样量为原始规模的百万分之十。

基于连续相关的采样(CRS): CRS使用重新参数化技巧将不可微的下采样操作放宽到连续域，使得端到端训练成为可能CRS采样后获得的每个采样点实际上是整个点云的加权和具体来说，对于大场景的输入点云(大小:N×3)，CRS通过学习获得采样矩阵(大小:K × N)(最终它将非常稀疏)，最后通过将输入点云向左相乘可以对采样矩阵进行下采样然而，当n是非常大的值时(例如10^6)，以这种方式学习的采样矩阵将导致非常大的存储器消耗例如，使用CRS对大规模景点云进行降采样，将数百万个点缩减到原始规模的10%，需要高达300GB的图形处理器内存

基于策略梯度的采样(PGS):PGS·[10]将下采样操作表示为马尔可夫决策过程，旨在学习有效的下采样策略该方法依次学习每个点的概率，以决定是否保留它然而，当输入的是大规模的景区云时，整个网络有很大的探索空间。例如，用于完成与上述采样方法相同的任务的搜索空间是

。通过进一步的实验，我们发现当PGS应用于大点云时，网络很难收敛。

综上所述:

对于大规模的景区云，FPS、IDIS和GS计算起来相对昂贵，CRS需要太多的GPU内存，而PGS很难学习到有效的采样策略相比之下，随机抽样有以下两个优点:1)高计算效率，因为它是恒定的计算复杂性，与输入点的数量无关；2)更少的内存开销，并且在采样过程中不需要额外的内存消耗因此，当大规模景点云作为输入时，我们为什么不尝试随机下采样呢？

但是有一个新问题:点云的随机下采样将不可避免地导致有用信息的丢失。如何克服这个问题？

2，局部特征聚集

为了缓解这个问题，我们进一步提出了一个补充随机抽样的局部特征聚集模块如图所示，该模块主要包括三个子模块:1)局部空间编码(loc se)，2)注意力集中，3)扩展剩余块

图4。局部特征聚集模块包括局部空间编码、注意汇集和扩张剩余块三个子模块

(1)局部空间编码

本模块用于明确编码输入点云的三维坐标信息不同于将每个点的三维坐标作为公共通道特征直接输入到网络中，LocSE模块旨在明确编码三维点云的空间几何信息，从而使网络能够从每个点的相对位置和距离信息中更好地学习空间几何结构。具体来说，它分为以下几个步骤:

首先，我们使用k近邻搜索算法在欧氏空间中为每个点找到最近的k个近邻点

其次，对于Pi的k个最近邻:

，我们显式地编码这些点的相对位置并将中心点的三维坐标Pi、三维坐标

相对坐标

和欧洲距离

连接在一起如下所示:

最后，我们将对应于邻域点

的点特征

与编码的相对点位置

连接起来。获得新的点特征

(2)注意力集中

。该模块用于汇总上述单元输出的邻域点要素集大多数现有算法通常使用启发式最大/均值/和合并来硬集成邻域点特征集，这可能导致许多有用信息丢失。与此不同，我们希望通过注意机制自动学习和聚集邻域点特征集中的有用信息。具体来说，对于邻域特征点集

，我们首先设计一个共享函数g()来学习每个点的单独的注意分数，

，其中w是共享MLP的可学习参数然后，我们将学习到的注意力分数视为可以自动选择重要特征的软掩码。最后一个特征是这些邻域特征点集的加权和，如下所示:

(3)考虑到输入点云将被连续地和极大地下采样，所以有必要显著增加每个点的感受野换句话说，我们希望即使随机删除一些点的特征，输入点云的整体几何细节也能得到保留。

基于这样的想法，我们将多个LocSE、注意汇集和跳过连接连接在一起，以形成扩张的残余块下图进一步说明了扩展剩余块的功能。可以看出，第一次定位/注意池操作后红点的有效感受野是k个邻近点，第二次聚集后感受野最多可扩展到

个邻近点。与在k最近的搜索中直接增加k值相比，这是增加每个点的感受野和促进相邻点之间的特征表示的更便宜和更有效的方法。在消融实验之后，我们的扩展剩余块最终使用两组LocSE和注意池单元来平衡最终的分割性能和计算效率

图5。通过扩展剩余块来增加每个点的感受野(虚拟线圈)的过程的示意图色点代表聚集的特殊

。最后，我们将随机抽样和局部特征聚合模块结合在一起，基于标准的编解码结构构造了随机网络网络的详细结构如下图所示。可以看出，输入点云在RandLA-Net中被连续地下采样，以节省计算资源和内存开销。

此外，RandLA-Net中的所有模块都由简单高效的前馈MLP组成，因此具有很高的计算效率最后，在解码器的上采样阶段，不同于广泛使用的三线性插值，我们选择了更有效的最近邻插值来进一步提高算法的效率。

图6。兰德拉网络的网络结构。(N，D)分别代表点数和特征维数FC:全连通层，LFA:局部特征聚合，RS:随机

3，实验

(1)随机采样效率

首先，我们评估上述采样策略，主要考虑计算时间和GPU内存消耗具体来说，我们进行了以下实验:在PointNet++的主框架上建模，我们连续对点云进行下采样，总共进行了五次下采样，每次采样仅保留原始点云中25%的点。实验结果如下图所示。可以看出:

1，对于小尺度点云~ 10 ^ 3，上述采样方法在计算时间和内存消耗上差异不明显，一般可以接受。

2。对于大规模点云~ 10 6，fps/idis/GS所需的计算时间显著增加，而CRS需要大量的GPU内存(图b中的虚线)；

3相比之下，遥感在计算时间和内存消耗方面具有显著优势，因此非常适合处理大规模点云。这个结果进一步解释了为什么大多数算法选择在小规模点云上处理和优化，主要是因为它们依赖于昂贵的采样方法。

图7。不同采样方法的时间和内存消耗虚线表示由于有限的图形处理器内存，随机网络

(2)效率的估计值

。我们进一步评估了rand la-net在真实场景中处理大规模三维点云的效率具体来说，我们选择了SemanticKITTI数据集的验证集(序列8:总共4071帧)进行比较测试。

主要评估以下三个指标:总时间、模型参数和网络可以处理的最大点数公平地说，我们在每帧的基线和随机网络中输入相同数量的点(81920)。实验结果如下表所示。可见:

表1。不同方法处理的SemanticKITTI数据集序列8的总时间、模型参数和最大处理点数的比较

1和SPG[23]的模型参数最少，但耗时最长。主要原因是几何划分和超级图构造的计算成本相对较高。

2、PointNet++和PointCNN也需要很长时间，主要是因为FPS需要很长时间来处理大规模的景点云。

3、PointNet和KPConv不能同时处理非常大规模的点云

，主要是因为没有下采样操作(PointNet)或者模型更复杂

4。由于简单的随机采样和基于MLP的高效局部特征聚合模块，RandLA-Net耗时最少(每秒约23帧)，一次可以处理总共10个6点云

(3)公共数据集评估结果

Semantic3D由30个大规模室外场景点云组成，包括真实三维空间中160×240×30米的场景，共40亿个点其中每个点包含3D坐标、RGB信息和强度信息RandLA-Net仅使用三维坐标和相应的颜色信息进行处理。从表中可以看出，我们的方法取得了很好的效果。与SPG、KPConv等方法相比，有明显的改进。

表2。不同方法对闪族3D(约简-8)定量结果的比较

闪族数据集由21个序列和43552帧点云组成每帧的点云由约10 5个点组成，包括真实三维空间中160×160×20米的场景我们根据正式的训练验证测试进行分类，序列00-07和09-10 (19130帧)作为训练集，序列08(4071帧)作为验证集，序列11-21 (20351帧)用于在线测试。

应当注意，该数据集中的点云仅包含每个点的三维坐标，而没有相应的颜色信息实验结果如下表所示。可以看出，RandLA-Net比基于点的方法(表格的上半部分)有显著的改进，也比大多数基于投影的方法好，并且在模型参数方面比DarKNet53Seg和其他方法有明显的优势。

表3。不同方法对SemanticKITTI数据集定量结果的比较

S3DIS数据集由6个地区的271个房间组成在真实的三维空间中，每个点云包含一个20×15×5米的室内场景6倍的交叉验证结果也进一步证实了我们方法的有效性。

表4。比较消融研究中不同方法

的S3DIS数据集的定量结果，我们进一步确认了每个子模块对整体性能的贡献详细分析见文件和补充资料。

表5。消融研究结果对比

最后，我们提出了一种针对大规模三维点云场景的轻量级高效的点云语义分割算法。与目前大多数基于FPS和其他计算代价昂贵的采样策略的算法不同，本文试图使用简单有效的随机采样来显著减少计算和内存消耗，并引入局部特征聚合模块来不断增加每个点的有效感受野，以确保最有效的信息不会因随机采样而丢失。在语义3D、S3DIS和闪米特等数据集上的大量实验证明了该方法的有效性。下一步，我们可以尝试将我们的工作扩展到大场景三维点云实例分割和实时动态点云处理。

4，最后

对于三维点云的语义分割任务，与其提出一个非常复杂的算法对切割点云进行改进性能，不如直接尝试对大规模的景点云进行处理，这更有实际意义。

三维点云分割网络的可扩展性也是实际应用中的一个重点也就是说，理想情况下，一个好的训练网络应该能够用于输入任意数量的推理点云，因为在每个时刻收集的点云的点不一定是相同的。这也是为什么RandLA-Net不使用全局特性。也就是说，确保所学的参数与点数无关。

适用于刚进入3d点云处理领域的学生。有一篇最新的研究论文《3D点云深度学习:综述》可供参考，其中包含了大量主流的点云目标分类、3D目标检测以及三位场景分割算法的最新研究进展和总结。

欢迎更多关注我们的新工作:https://qingyonghu.github.io/, HTTPS://杨7879.github.io/

参考资料

[1]查尔斯rqi。苏浩、莫开春和列奥尼达·吉巴斯。点网:深度学习三维分类和分割的点集。CVPR，2017.

[2]查理斯·R·齐，李毅，苏浩和列奥尼达·吉巴斯。PointNet++对度量空间中的点集进行深层分层特征学习。神经科，2017

3]李，芮部，孙明超，，迪，。点有线电视新闻网:在X变换点上的卷积。神经科，2018.

[4]吴文选，仲昂启，李福新。点云:3D点云上的深层卷积网络。CVPR，2018.

[5]费边·格罗、帕特里克·威士克勒克和亨德里克·帕·连奇。灵活卷积(网格世界之外的百万级点云学习)。ACCV，2018

[6]柳文欢·多福拉特、伊泰·朗和沙伊·阿维丹。学会取样。CVPR，2019.

[7]伊泰朗，阿萨夫庄园，和沙伊维丹。样本网:可微分点云采样。arXiv预印本ArXiv:1912.03663(2019).

[8]阿布巴卡尔·阿比德、穆罕默德·法蒂赫·巴林和詹姆斯·邹。用于可区分特征选择和重建的具体自动编码器。，2019

9]杨，，倪炳兵，李，，，田启天。利用自我关注和Gumbel子集采样对点云建模。CVPR，2019.

[10]许开文，吉米巴，瑞安基罗斯，赵庆云，亚伦库维尔，罗斯兰萨拉赫乌迪诺夫，里奇泽梅尔，和约舒亚本吉奥。展示、参与和讲述:视觉注意力的神经图像字幕生成。Hugues Thomas，Charles R Qi，Jean-Emmanuel Deschaud，Beatriz Marcotegui，Franc ̧ois Goulette和Leonidas J Guibas。Kpconv:点云的灵活和可变形卷积。ICCV，2019.

本文由在线网速测试整理编辑，转载请注明出处。

CVPR 2020 |RandLA-Net:大场景三维点云语义分割新框架（已开源）

热门文章

文章分类