人类读不懂唇语?交给深度学习,精度可达 84.41%

      最后更新:2020-03-21 14:20:12 手机定位技术交流文章

      能读懂嘴唇,这是摆在我们面前的一个难题。大多数人平均只能读十分之一正确的嘴唇。那么人工智能能做到吗?

      早在2016年,牛津大学人工智能实验室、谷歌深度思维和加拿大高等研究院(CIFAR)联合开发了LipNet,这是一个结合深度学习技术的唇读项目。随后,提高计算机唇读的准确性成为该领域的一个重要挑战。

      最近,浙江工业大学、智能信息处理重点实验室、中国科学院计算技术研究所和中国科学院大学的研究团队联合提出在局部特征层和全局序列层引入互信息约束,以增强嘴部特征和语音内容之间的关系,并将计算机唇读的准确率提高到84.41%当地时间2020年3月13日,

      ,关于有效唇读的相互信息最大化的相关论文在预先打印的网站arXiv上发表。

      解决了词汇级唇读的“固有”问题

      唇读/语音阅读,即简单地观察说话人的口型变化并“阅读”其表达的内容事实上,唇读的过程就是用视觉通道信息来补充听觉通道信息,这对听力弱的群体、噪声环境中的工作人员和执法机关都有实际的应用意义

      。在计算机视觉的背景下,唇读作为一种基于深度学习的模型,更多地用于推断视频中的语音内容,并且可以辅助基于音频的语音识别、生物认证等。

      在论文中,研究小组提到了“单词级唇读”的概念事实上,词汇水平的唇读是唇读的一个分支,也是研究小组的主要关注点。它有一些“固有的”问题。

      首先,即使在同一视频中有其他单词,每个输入视频都用一个单词标签进行标注例如,在下图中包括总共29帧的视频样本被注释为“大约”,但是单词“大约”的实际帧仅包括在时间步长t = 1219处的帧,即红色帧中的部分,并且对应于红色帧之前和之后的帧的单词分别是“刚刚”和“十”

      上面的例子反映了词汇水平唇读的一个问题——该模型不能完全关注有效的关键帧,因此词汇边界划分不准确

      第二,同一词汇标签下的视频样本图片经常变化例如,下图中的图片都属于标有“关于”的视频

      上述两个词汇级唇读特征要求唇读模型能够抵抗序列中的噪声,从而在各种语音环境中捕获一致的潜在模式

      此外,准确捕捉口型的变化并不容易——发音相似的词有相似的口型,同音字的识别也使难度更高。

      实际上,要保证计算机良好的唇读性能,在很大程度上取决于两点:

      是否能有效地捕捉到口型的变化;

      能有效抵抗由姿势、光线、扬声器外观等变化引起的噪音吗

      介绍了不同级别的“互信息最大化”

      雷锋网络了解互信息是用来衡量两个随机变量之间关系的基本量。当给定一个随机变量时,它总是用来计算另一个随机变量所拥有的信息量基于此,两个随机变量的互信息总是用来衡量两个变量之间的相互依赖性

      为了解决上述问题,研究团队主要从两个方面入手,引入不同层次的“互信息最大化”(MIM),旨在使模型同时具有更好的识别能力和鲁棒性,并保证更有效的唇读。

      [雷锋网注:基础架构]

      一方面,研究小组施加“局部互信息最大化(LMIM)约束来限制每个时间步骤中生成的特征,以便它们可以与语音内容有很强的关系,从而提高模型发现细微的嘴部变化和具有相似发音(例如“口语”和“支出”)的单词之间的差异的能力

      [雷锋网注:LMIM培训基础网]

      另一方面,研究团队引入了“全局互信息最大化(GMIM)约束”,使得模型更加注重与语音内容相关的关键帧的识别,而较少关注各种可能的噪声。


      [GMIM培训基金会网络]

      使用LRW和LRW-1000评估

      来验证此方法。研究团队使用两个大规模的词汇水平数据集对其进行评估,并在几个方面与其他主流的嘴唇识别模型方法进行了详细的分析和比较,包括LMIM和gmim与基线的比较、深度学习的可视化等。下面

      是两个数据集的具体信息:

      LRW:发布于2016年,总样本量为487,766,包括500个词汇水平,涉及1,000多个说话人,说话环境非常不同。这个数据集被主流唇读方法广泛使用,是一个具有挑战性的数据集。

      LRW-1000:总样本量为70000,总时长约为57小时,包括1000个词汇级别数据集旨在覆盖不同的语音模式和图片条件,从而结合实际应用中遇到的挑战。

      经过评估,研究小组发现GMIM可以将准确率提高到84.41%,这主要是由于它关注不同帧的不同特征。与除视觉信息外部输入之外的其他唇读方法相比,研究小组在LRW数据集(下图)上取得了迄今为止的最佳表现

      此外,通过引入LMIM,该模型在识别发音相似的词(如Makes/making/making和Political/politics)方面确实显示出较高的准确性和明显的改进(如下图所示)

      与此同时,研究团队通过可视化进一步探索了GMIM的效果。如下图所示,以下单词之间的差异范围从-20到20到-40到60,这意味着随着GMIM的引入,区分单词变得更加容易

      表明,在不使用额外数据或额外预训练模型的前提下,研究团队的上述方法确实比其他主流唇读模型更为突出。希望该方法能为其他模型提供参考。

      参考:

      https://arxiv . org/ABS/2003.06439

      https://www . lephone . com/news/201611/lmrp N2 ddouoex3e . html

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/2278.html

          热门文章

          文章分类