最后更新:2020-04-15 12:55:40 手机定位技术交流文章

大数据摘要
来源:维也纳国际中心
编著:曹培新、刘俊环
目前,世界上有6900多种语言,这对自然语言处理研究者来说是一个巨大的噩梦。因为大多数语言都有稀疏的数据,研究人员无法找到足够的数据来单独训练成熟的模型。
幸运的是,许多语言共享大量的基础设施。例如,在词汇层面上,语言通常有来自同一个来源的词,例如,英语中的“桌子”和德语中的“提施”都来自拉丁语“迪苏斯”。同样,许多语言也以类似的方式标记语义角色,例如,汉语和土耳其语之间的time 空关系用后置标记。
谷歌今天发布了自然语言处理系统的基准测试Xtreme,它包括12个语系和40种语言的9个推理任务。这一技术巨头的研究人员断言,它可以评估人工智能模型是否能够学习跨语言知识,这对于越来越多的自然语言应用是有用的。
谷歌还在官方博客上介绍了Xtreme:
https://ai . googleblog . com/2020/04/Xtreme-massive-multi-multi . html

这项基准测试的目标是促进人工智能多语言学习领域的研究。在这个领域,已经做了大量的工作来研究是否可以通过使用稀疏数据语言结构来训练可靠的机器学习模型。
Xtreme被选为基准测试,以最大限度地提高多样性,扩大现有任务的覆盖范围,并提供培训数据。这些语言包括尚未被充分研究的语言,如泰米尔语,即在印度南部、斯里兰卡和新加坡使用的德拉威语,泰卢固语和马拉雅拉姆语,主要在印度南部使用,以及斯瓦希里语和约鲁巴语,即在非洲使用的尼日尔-刚果语。
Xtreme的9项任务涵盖了一系列基本范例,包括句子分类(即将一个句子分配给一个或多个类别)和结构化预测(预测实体和词性等对象),以及句子检索(查询和匹配一组记录)和高效的问答。

谷歌极限基准支持的任务
该模型只有在跨语言学习文本上经过预先培训后,才能在Xtreme上进行测试。然后,考虑到英语是最有可能有标记数据的语言,他们必须为特定任务微调英语数据。Xtreme评估了这些模型的零触发跨语言传输性能,也就是说,在其他语言中看不到特定于任务的数据。对于可以在其他语言中使用标记数据的任务,Xtreme还会比较语言中数据的微调,并最终通过获得所有任务的零概率分数来获得综合分数。
在Xtreme的初步实验中,一个谷歌研究团队发现,即使是最先进的多语言模型,如伯特、XLM、XLM-r和M4,也没有达到预期的水平。其中,BERT对西班牙语的准确率为86.9/100,而日语只有49.2/100。转换成非拉丁语单词也非常困难。所有模型都很难预测英语训练数据中没有的远程语言实体。例如,印度尼西亚语和斯瓦希里语的准确率分别为58.0和66.6,而葡萄牙语和法语的准确率分别为82.3和80.1。

谷歌研究的高级软件工程师梅尔文·约翰逊(Melvin Johnson)和深度思维科学家塞巴斯蒂安·路德(Sebastian Ruder)在一篇博客文章中写道:“我们发现,尽管该模型在大多数现有的英语任务中表现得和人类一样好,但在许多其他语言中却不如预期。总的来说,英语和其他语言在模型和模拟环境中的表现还有很大的差距,这也表明跨语言迁移研究有很大的潜力。”
Xtreme基准测试的代码和数据在GitHub上已经是开源的,并且有运行各种基线的例子。
GitHub链接:
https://github.com/google-research/xtreme
本文由 在线网速测试 整理编辑,转载请注明出处。