没有绿幕，AI也能完美视频抠图，发丝毕现，毫无违和感 | CVPR

最后更新：2020-04-09 12:42:38 手机定位技术交流文章

奥菲庙量子比特鱼和羊报告|公开号码QbitAI

拍下我妹妹在阳台上的视频:

然后带她去喷泉广场:

几步？

现在，人工智能可以在没有绿色窗帘的情况下处理这个问题。

就像这样，随便用手机给我妹妹拍张照片，然后在同一个地方拍一张没有肖像的背景照片。

深度神经网络可以自动分析阿尔法面具和前景颜色，并挑选出妹妹的头发清晰。

视频也是如此。

让微笑的同事在实验室的白板前表演一段广播体操，然后给背景板一个单独的片段，这样就可以将同事凭空“转移”到大厅，吸引路人观看。

这是华盛顿大学的最新研究，它可以准确预测面具和铺垫照片和视频，而不需要绿屏和手动创建Trimap，这是一个具有对抗损失的深度神经网络。

该论文已经赢得了CVPR 2020，代码将很快成为开源的。

深度抠图网络+鉴别器网络

那么，这个铺垫特技是如何炼成的呢？

研究人员表示，这是一个具有对抗性损失的深层网络+一个判断合成质量的鉴别器。

深层铺垫网络

研究者首先在Adobe Matting数据集的非透明对象子集上监督和训练深层神经网络G。

输入是带有肖像的照片1和照片中的背景B’，以及肖像软分割S和运动优先M(仅用于视频)。

应当注意，在真实环境中，通过向真实背景的前景区域随机添加噪声来生成B’。

基于输入，网络预测α掩模α和前景图像f。

研究者提出用上下文切换块(CS块)代替基于残差块的编码器-解码器。

有什么不同？

例如，当一个人的一部分与背景匹配时，网络将更多地关注该区域的细分线索。

G网络有四种不同的编码器，分别适用于输入、输出、服务和管理。每个编码器分别生成256个通道特征图。

通过1×1卷积，将BatchNorm和ReLU、I中的图像特征分别与B’、S和M组合，每对组合生成64个通道特征。

最后，将这三个64通道特征与原始的256通道图像特征相结合，生成编码特征，然后将其传输到剩余的由残差块和编码器组成的网络。

无标记真实数据的对抗训练

CS块和数据增强的结合可以有效地弥合真实图像和由Adobe数据集创建的合成图像之间的差距，但是在真实图像中仍然存在一些困难:

将手指、手臂和头发周围的背景标记复制到面具中；分段失败；前景色的重要部分接近背景色。肖像照片和背景照片之间没有对齐。为了解决这些问题，研究者还提出了一种自我监控方案，从未标记的真实数据(真实图像+背景)中学习。

使用深抠图网络G的单独副本GReal来形成对策网络，对策网络生成类似于GAdobe输出的掩码，而鉴别器网络D鉴别结果是真还是假。

研究人员使用真实输入(手机拍摄)来联合训练GReal和d，GAdobe用来提供监督。

与SOTA方法的比较

研究人员将这种新方法与以下SOTA方法进行了定性比较:

基于三分图的上下文感知抠图和索引抠图；自动掩蔽算法late fusion matting(LFM)；

不难看出效果的改善真的很明显。

你觉得怎么样？马克不妨等待开源。

毕竟，一些大胆的想法可能已经在酝酿了，对吧？

入口

项目地址:http://grail.cs.washington.edu/projects/background-matting/

-完毕-

量子比特签了合同。

请密切关注我们，首先了解最新的技术发展。