没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR

      最后更新:2020-04-09 12:42:38 手机定位技术交流文章

      奥菲庙量子比特鱼和羊报告|公开号码QbitAI

      拍下我妹妹在阳台上的视频:

      然后带她去喷泉广场:

      几步?

      现在,人工智能可以在没有绿色窗帘的情况下处理这个问题。

      就像这样,随便用手机给我妹妹拍张照片,然后在同一个地方拍一张没有肖像的背景照片。

      深度神经网络可以自动分析阿尔法面具和前景颜色,并挑选出妹妹的头发清晰。

      视频也是如此。

      让微笑的同事在实验室的白板前表演一段广播体操,然后给背景板一个单独的片段,这样就可以将同事凭空“转移”到大厅,吸引路人观看。

      这是华盛顿大学的最新研究,它可以准确预测面具和铺垫照片和视频,而不需要绿屏和手动创建Trimap,这是一个具有对抗损失的深度神经网络。

      该论文已经赢得了CVPR 2020,代码将很快成为开源的。

      深度抠图网络+鉴别器网络

      那么,这个铺垫特技是如何炼成的呢?

      研究人员表示,这是一个具有对抗性损失的深层网络+一个判断合成质量的鉴别器。

      深层铺垫网络

      研究者首先在Adobe Matting数据集的非透明对象子集上监督和训练深层神经网络G。

      输入是带有肖像的照片1和照片中的背景B’,以及肖像软分割S和运动优先M(仅用于视频)。

      应当注意,在真实环境中,通过向真实背景的前景区域随机添加噪声来生成B’。

      基于输入,网络预测α掩模α和前景图像f。

      研究者提出用上下文切换块(CS块)代替基于残差块的编码器-解码器。

      有什么不同?

      例如,当一个人的一部分与背景匹配时,网络将更多地关注该区域的细分线索。

      G网络有四种不同的编码器,分别适用于输入、输出、服务和管理。每个编码器分别生成256个通道特征图。

      通过1×1卷积,将BatchNorm和ReLU、I中的图像特征分别与B’、S和M组合,每对组合生成64个通道特征。

      最后,将这三个64通道特征与原始的256通道图像特征相结合,生成编码特征,然后将其传输到剩余的由残差块和编码器组成的网络。

      无标记真实数据的对抗训练

      CS块和数据增强的结合可以有效地弥合真实图像和由Adobe数据集创建的合成图像之间的差距,但是在真实图像中仍然存在一些困难:

      将手指、手臂和头发周围的背景标记复制到面具中;分段失败;前景色的重要部分接近背景色。肖像照片和背景照片之间没有对齐。为了解决这些问题,研究者还提出了一种自我监控方案,从未标记的真实数据(真实图像+背景)中学习。

      使用深抠图网络G的单独副本GReal来形成对策网络,对策网络生成类似于GAdobe输出的掩码,而鉴别器网络D鉴别结果是真还是假。

      研究人员使用真实输入(手机拍摄)来联合训练GReal和d,GAdobe用来提供监督。

      与SOTA方法的比较

      研究人员将这种新方法与以下SOTA方法进行了定性比较:

      基于三分图的上下文感知抠图和索引抠图;自动掩蔽算法late fusion matting(LFM);

      不难看出效果的改善真的很明显。

      你觉得怎么样?马克不妨等待开源。

      毕竟,一些大胆的想法可能已经在酝酿了,对吧?

      入口

      项目地址:http://grail.cs.washington.edu/projects/background-matting/

      -完毕-

      量子比特签了合同。

      请密切关注我们,首先了解最新的技术发展。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3986.html

          热门文章

          文章分类