最后更新:2020-03-24 13:36:38 手机定位技术交流文章
机器之心报告
机器之心编辑部
对斯坦福自然语言处理程序库来说肯定不是新的,但是这个库主要基于Java最近,克里斯托弗·曼宁的斯坦福自然语言处理团队开发了一个Python工具包——Stanza,为Python的生态系统添加了另一个自然语言处理通用程序。
我们都知道斯坦福自然语言处理小组的开源工具——这是一个包含各种自然语言处理工具的代码库最近,他们发布了该工具的Python版本,名为Stanza。该库有60多种语言的模型,可以执行自然语言处理任务,如命名实体识别。收入来源一旦开放,就在社会上引起了热烈的讨论。李菲菲在推特上称赞了这个项目

目前,该项目可以直接从pip安装
项目地址:https://github.com/stanfordnlp/stanza
's现有模型和支持的NLP任务
节包含60多种语言模型,并在通用依赖关系2.5数据集上进行了预先培训这些模型包括简体中文、繁体中文、古汉语、英语、法语、西班牙语、德语、日语、朝鲜语、阿拉伯语,甚至还有一些不太常见的语言,如北萨米语
除了语言模型,Stanza还支持数十种语言的敏敏实体识别模型完整的列表如下:

根据节的论文介绍,节涵盖了许多自然语言处理任务,如分词、词性标注、依存句法分析、命名实体识别等。此外,它还提供了与熟悉的斯坦福核心函数库进行交互的Pyhton接口,从而扩展了现有的功能。
还值得注意的是,Stanza完全基于神经网络管道研究人员对112个数据集进行了预培训,但使用了相同的模型架构。他们发现同样的神经网络结构可以很好地推广。该网络在所有语言中都表现良好。整个神经网络管道是通过PyTorch实现的。
运行小节
神经网络管道介绍
要运行第一个小节管道,您只需要在python解释器中操作Z:
>;>。>。导入节>。>。>。下载(‘en’)#这下载了神经管道的英语模型#重要:上面的行在下载之前提示你,这在Jupyter笔记本中不太好用。#要避免在使用笔记本时出现提示,请使用:& gt>。>。下载(“en”,force = True)>;>。>。nlp =节。管道()#这用英语设置了一个默认的神经管道>。>。>。巴拉克·奥巴马出生在夏威夷。他在2008年当选总统。')>。>。>。医生。句子< BR >
Stanza的论文提供了整个代码库的体系结构如您所见,它将原始文本作为输入,并可以直接输出结构化的结果。

节神经网络的部分结构除了神经网络管道之外,Stanza还有一个Python客户端接口,可以与斯坦福核心网的Java版本进行交互
,同时,本文还比较了Stanza与现有的自然语言处理工具,如spaCy等可以看出,节是涵盖最大数量的语言,达到SOTA和完全基于神经网络框架的图书馆。

与现有NLP库的比较
最后,研究人员还将自然语言处理任务在诗节上的表现与现有基线进行了比较,发现诗节在大多数情况下都超过了SOTA。

与现有基线性能的比较如你所见,斯坦萨用许多语言和任务实现了SOTA。
参考链接:https://arxiv.org/abs/2003.07082
本文由 在线网速测试 整理编辑,转载请注明出处。