最后更新:2020-05-08 11:01:26 手机定位技术交流文章
选自arXiv
作者:罗璇、贾·等
机器编译的核心
参与:魔鬼和张骞
你还记得关于通过纸张的外观来判断纸张质量的研究吗?在那项研究中,作者贾-黄斌,他是高层会议的主席,被他自己的制度所排斥,吸引了大量的社区成员。最近,他和他的合作者提出了一种新的计算机视觉方法,这种方法可以使厨房“漫山遍野”,并使天空空雨“五彩缤纷”。



不仅如此,如果你想让猫主人不要放弃他制作的丑陋视频,这个方法也可以救你!

这项研究是由华盛顿大学、弗吉尼亚理工大学和脸书的研究人员进行的。
其中,第一作者罗轩目前是华盛顿大学现实实验室的医生。她毕业于上海交通大学,获得学士学位,并由陆洪涛教授指导。她的研究方向是立体匹配。她在新加坡国立大学与颜水成一起深入学习。

第二位作者贾-黄斌是弗吉尼亚理工大学的助理教授。他的研究兴趣是计算机视觉、计算机图形学和机器学习。他曾担任2018年世界经济论坛、2019年CVPR会议、2019年ICCV会议、2019年BMVC会议和2020年BMVC会议的主席。
本研究主要探讨如何产生具有较高准确度和几何一致性的视频重建结果。目前,该论文已被计算机图形学的顶级会议SIGGRAPH 2020接收,其代码在未来将是开源的。
地址:https://arxiv.org/pdf/2004.15021.pdf
项目网站:https://Roxanne luo.github.io/consistent-video-depth-estimation/
手机拍摄的视频可以三维重建吗?
基于图像序列的三维场景重建在计算机视觉领域已经研究了几十年。毫无疑问,捕捉3D重建的最简单方法是使用智能手机进行手持拍摄,因为这种相机很常见,可以快速覆盖大的空。如果手机拍摄的视频可以用来实现非常密集和精确的重建,这种技术将变得非常有用。但是要做到这一点有许多困难。
除了重建系统必须处理的典型问题(例如单一纹理区域、重复图案和遮挡)之外,基于移动电话拍摄的视频的重建还面临来自视频本身的额外挑战,例如高噪声水平、抖动和动态模糊、滚动快门变形以及运动物体(例如人)的出现。
由于这些原因,现有方法通常会遇到许多问题,例如深度图中的缺失区域(见下图B)以及不一致的几何图形和闪烁深度(见下图C)。

如何解决它?
提出了一种新的三维重建算法,该算法能够重建单目视频中所有像素的密集且几何一致的深度。他们使用传统的基于运动的结构(SfM)方法来重建像素的几何约束。

不同于传统的使用特殊先验知识的重建方法,本研究使用了学习先验知识,即通过单图像深度估计训练的卷积神经网络。在测试过程中,他们对网络进行了微调,以满足特定输入视频的几何约束,同时保留其为视频中约束较少的部分合成合理深度细节的能力。
定量验证结果表明,与以往的单目重建方法相比,该方法能够获得更高的精度和几何一致性。从视觉角度来看,本文提出的方法也更加稳定。该方法可以处理中等抖动的手持拍摄视频,可以应用于基于视频的场景重建和高级视觉效果。
然而,这种方法的局限性是计算功耗太大,暂时不能用于实时增强现实场景。然而,该论文的作者也表示,速度的提高将是下一个研究目标。

方法

图2:方法概述。
如上图2所示,该方法以单目视频作为输入来估计每个视频帧的相机姿态和深度以及几何一致性深度图。“几何一致性”不仅意味着深度图不会随时间闪烁,还意味着所有深度图彼此一致。换句话说,我们可以使用像素深度和相机姿态精确地将这些像素逐帧投影。例如,一个静态点的所有观测结果都应该映射到世界坐标系中的一个公共3D点,而不发生漂移。
随机捕获的输入视频给深度重建增加了一些挑战。由于它们大多数是手持的,并且相机没有经过校准,因此经常会出现动态模糊和卷帘式快门变形等问题。恶劣的照明条件也会导致额外的噪音和模糊。此外,这些视频通常包含动态移动的对象(如人或动物),而许多重建系统是专门为静态场景设计的,这形成了很大的冲突。
在有问题的场景中,传统的重建方法通常会产生“孔洞”(如果结果被强制返回,噪声的深度估计会非常大)。然而,在这些方法对返回结果更有信心的部分,它们通常返回非常准确和一致的结果,因为它们严重依赖于几何约束。
最近,基于学习的方法弥补了这些缺点。他们利用数据驱动的强大先验来预测输入图像的合理深度。然而,对每个帧分别应用这些方法将导致几何不一致和瞬时闪烁。
作者提出的方法结合了上述两种方法的优点。研究人员已经使用了几种现成的单一图像深度估计网络。这些训练好的网络可以合成普通彩色图像的合理深度。他们使用传统重建方法从视频中提取的几何约束来微调网络。因此,网络学习在特定视频上生成具有几何一致性的深度。
该方法包括测试过程中的预处理和训练两个步骤。
预处理
预处理是从视频帧中提取几何约束的基础。
在本研究中,使用开源软件COLMAP来执行传统的SfM重建过程。
为了提高动态运动视频的姿态估计,由于视频中的动态运动主要来自于字符,研究人员使用掩膜R-CNN获得字符的分割结果,并去除这些区域以获得更可靠的关键点提取和匹配结果。该步骤可以提供精确的内部和外部摄像机参数以及稀疏点云重建。
研究人员还利用光流估计了视频帧对之间的密集对应关系。摄像机校准和密集通信一起构成几何损失。
测试期间的培训
在这一阶段,研究人员微调预训练深度估计网络,为特定输入视频生成具有更高几何一致性的深度。
在每次迭代中,该方法使用当前网络参数来采样一对视频帧并估计它们的深度图。然后,将密集一致性与使用当前深度估计结果获得的再投影进行比较,以验证深度图是否具有几何一致性。
最后,研究人员评估了两种几何损失:空和视差损失,并将误差传播回去以更新网络权重(所有帧共享权重)。
通过以这种方式迭代地采样多对视频帧,减少了损失,网络学习以几何一致性来估计深度,并且同时它可以在较少约束的部分提供合理的正则化。
这种方法的改进通常很大。最终的深度图具有几何一致性,这与整个视频的时序一致,并且可以精确地勾画出清晰的掩蔽边界,即使对于移动的对象也是如此。利用计算的深度,研究人员可以为遮挡效果提供适当的深度边界,允许真实场景几何图形与虚拟对象交互。
这种方法有多有效?
与其他方法的比较结果
研究人员比较了当前的最佳深度估计算法,这些算法分为三类:
传统多视角立体视觉系统
图4:本研究中提出的方法和SOTA方法之间的定量比较结果。

图5:SOTA方法的视觉比较结果。
本研究提出的方法可以从手机相机随机拍摄的视频中生成几何一致性和无抖动的深度估计结果。
控制变量研究

表2:控制变量的研究。定量评价结果表明了该方法的设计重要性。

图6:该方法的设计对输出结果的贡献。

图7:使用长期时间约束和视差损失的效果分析。
公共基准量化结果的比较

表3:扫描网络数据集的定量比较结果。

表4:TUM-RGBD数据集的定量比较结果。

表KITTI参考数据集的定量比较结果。
方法限制
这种方法有什么限制吗?
在本文中,作者提到了该方法的四个局限性,即姿态、动态运动、光流和速度。
姿态
该方法目前依赖于COLMAP来估计基于单目视频的摄像机姿态。在更困难的场景中,例如有限的摄像机平移和动态模糊,COLMAP可能无法生成可靠的稀疏重建结果和摄像机姿态估计。
较大的姿态误差也会对该方法的输出产生很大的负面影响,这限制了该方法在此类视频中的应用。
将基于学习的姿态估计与本研究提出的方法相结合可能是一个很好的研究方向。
动态运动
这种方法支持包含适度运动的视频,但是如果运动更剧烈,这种方法可能会导致问题。
光通量
该方法依赖于FlowNet2来建立几何约束。使用前向和后向传播一致性检查并过滤掉不可靠的光流,但这也可能导致错误。此时,该方法无法输出正确的深度。研究人员试图使用稀疏光流,但效果并不好。
速度
该方法使用视频中的所有帧来提取几何约束,因此不支持在线处理。例如,对于包含244帧和708个采样光流对的视频,该方法测试期间的训练步骤需要大约40分钟。
本文由 在线网速测试 整理编辑,转载请注明出处。