最后更新:2020-04-09 12:42:38 手机定位技术交流文章
奥菲庙量子比特鱼和羊报告|公开号码QbitAI
拍下我妹妹在阳台上的视频:

然后带她去喷泉广场:

几步?
现在,人工智能可以在没有绿色窗帘的情况下处理这个问题。
就像这样,随便用手机给我妹妹拍张照片,然后在同一个地方拍一张没有肖像的背景照片。

深度神经网络可以自动分析阿尔法面具和前景颜色,并挑选出妹妹的头发清晰。

视频也是如此。
让微笑的同事在实验室的白板前表演一段广播体操,然后给背景板一个单独的片段,这样就可以将同事凭空“转移”到大厅,吸引路人观看。

这是华盛顿大学的最新研究,它可以准确预测面具和铺垫照片和视频,而不需要绿屏和手动创建Trimap,这是一个具有对抗损失的深度神经网络。
该论文已经赢得了CVPR 2020,代码将很快成为开源的。
深度抠图网络+鉴别器网络
那么,这个铺垫特技是如何炼成的呢?
研究人员表示,这是一个具有对抗性损失的深层网络+一个判断合成质量的鉴别器。
深层铺垫网络
研究者首先在Adobe Matting数据集的非透明对象子集上监督和训练深层神经网络G。
输入是带有肖像的照片1和照片中的背景B’,以及肖像软分割S和运动优先M(仅用于视频)。
应当注意,在真实环境中,通过向真实背景的前景区域随机添加噪声来生成B’。
基于输入,网络预测α掩模α和前景图像f。

研究者提出用上下文切换块(CS块)代替基于残差块的编码器-解码器。
有什么不同?
例如,当一个人的一部分与背景匹配时,网络将更多地关注该区域的细分线索。
G网络有四种不同的编码器,分别适用于输入、输出、服务和管理。每个编码器分别生成256个通道特征图。
通过1×1卷积,将BatchNorm和ReLU、I中的图像特征分别与B’、S和M组合,每对组合生成64个通道特征。
最后,将这三个64通道特征与原始的256通道图像特征相结合,生成编码特征,然后将其传输到剩余的由残差块和编码器组成的网络。

无标记真实数据的对抗训练
CS块和数据增强的结合可以有效地弥合真实图像和由Adobe数据集创建的合成图像之间的差距,但是在真实图像中仍然存在一些困难:
将手指、手臂和头发周围的背景标记复制到面具中;分段失败;前景色的重要部分接近背景色。肖像照片和背景照片之间没有对齐。为了解决这些问题,研究者还提出了一种自我监控方案,从未标记的真实数据(真实图像+背景)中学习。
使用深抠图网络G的单独副本GReal来形成对策网络,对策网络生成类似于GAdobe输出的掩码,而鉴别器网络D鉴别结果是真还是假。
研究人员使用真实输入(手机拍摄)来联合训练GReal和d,GAdobe用来提供监督。
与SOTA方法的比较
研究人员将这种新方法与以下SOTA方法进行了定性比较:
基于三分图的上下文感知抠图和索引抠图;自动掩蔽算法late fusion matting(LFM);

不难看出效果的改善真的很明显。
你觉得怎么样?马克不妨等待开源。
毕竟,一些大胆的想法可能已经在酝酿了,对吧?
入口
项目地址:http://grail.cs.washington.edu/projects/background-matting/
-完毕-
量子比特签了合同。
请密切关注我们,首先了解最新的技术发展。
本文由 在线网速测试 整理编辑,转载请注明出处。