ELECTRA中文预训练模型开源,仅1/10参数量,性能依旧媲美BERT

      最后更新:2020-03-28 13:20:28 手机定位技术交流文章

      文|韦嘉

      蒋宝山

      去年11月,由全国民主联盟大神曼宁与谷歌联合制造的ELECTRA发布,整个全国民主联盟迅速繁荣起来。其中,ELECTRA-small模型的参数只有BERT-base模型的1/10,但其性能仍可与BERT、RoBERTa等模型相媲美。

      不久前,谷歌终于开放了源代码ELECTRA,并发布了一个预培训模型,这对缺乏强大计算能力的大学和企业来说是一个巨大的福音。

      然而,它的预培训模式只针对英语,而不是像BERT那样的多语言版本。对于其他语言(如汉语)的研究人员来说,这是非常令人遗憾的。

      针对这一问题,哈尔滨工业大学(HFL)联合实验室今天发布了基于ELECTRA开源代码的ELECTRA预培训模型的中文版本。

      1、ELECTRA

      ELECTRA的预培训模型的作者是斯坦福SAIL实验室的曼宁小组和谷歌大脑研究小组,这两个小组首次出现在2019年的北京致远会议上。作为一种新的文本预训练模型,ELECTRA新颖的设计思想、较少的计算资源消耗和较少的参数很快吸引了大量的关注。尤其是去年11月《ICLR 2020》的论文被接收并发表后,在民盟圈子里引起了轩然大波。

      论文链接:

      https://openreview.net/forum? id = r1xm h1 btvb

      这篇论文中的图表可以解释所有的问题:

      注意:右边的图片显示了左边放大的结果。

      如上图所示,ELECTRA模型在训练步骤较少的前提下,可以取得比其他预训练模型更好的效果。类似地,ELECTRA的性能明显优于基于MLM的方法,如BERT和XLNet,具有相同的模型大小、数据和计算。

      因此,ELECTRA具有比现有生成语言表示学习方法更高的计算效率和更少的参数(ELECTRA-small只有BERT-base参数的1/10)。

      ELECTRA基于其新颖的预训练框架可以获得如此优异的结果,该框架包括两个部分:生成器和鉴别器。

      发电机:一个小MLM,在

      开源地址:https://github.com/ymcui/Chinese-BERT-wwm

      开源地址:https://github.com/ymcui/Chinese-XLNet

      继谷歌开源的ELECTRA之后,崔、等人又推出了中文版的ELECTRA。

      训练数据集仍然与之前的BERT系列模型训练中使用的数据一致,主要来自大规模的中文维基和常见文本(抓取和清理中文网页),词汇中使用的单词总数为54亿,其中包括21128个单词。

      在这个开源软件中,崔和其他人只发布了ELECTRA-base和ELECTRA-small模型。据崔,模型的发布被推迟,因为大量的参数和设置超级参数的困难。

      这两个版本分别训练了大约7天。由于小版本的参数仅为基础版本的1/10,崔等人将其批次调整为1024(基础的4倍)。具体细节和超级参数如下(未提及的参数仍为默认值):

      ELECTRA基础:12层,隐藏层768,12个注意力头,学习率2e-4,batch256,最大长度512,训练1M步

      ELECTRA-small只有4600万

      在效果方面,崔等人将这一效果与他们之前制作的一系列中文版预训练模型进行了比较。

      比较模型包括:ELECTRA-small/base、BERT-base、BERT-wwm、BERT-wwm-ext、RoBERTa-wwm-ext、RBT3。

      有六个比较任务:

      2018年(崔等,2019年):(邵等,2018年):(简体中文)文本片段提取阅读理解(繁体中文)XNLI(康诺等,2018年):自然语言推理(三分类)中国科技大学:情感分析(二分类)立法会三题(刘等,2018年):句子对匹配(二分类)BQ语料库(陈等,2018年):句子对匹配(二分类)

      在下游任务微调中,ELECTRA-small/base模型的学习速率在原始文件中设置为默认的3e-4和1e-4。值得注意的是,这里的微调并没有对任何任务的参数进行微调。为了确保结果的可靠性,对于同一模型,他们使用不同的随机种子训练10次,并报告模型性能的最大值和平均值(平均值在括号中)。

      效果如下:

      简体中文阅读理解:CMRC 2018(评价指标:EM/F1)

      中国传统阅读理解:DRCD(评价指标:EM/F1)

      自然语言推理:XNLI(评估指标:准确性)

      情感分析:科技公司(评价指标:准确性)

      句子对分类:立法会五题(评估指标:准确性)

      句子对分类:BQ语料库(评价指标:准确性)

      从以上结果可以看出,对于ELECTRA-small模型,其在大多数任务上的效应明显大于三层RoBERTa效应(RBT3),甚至接近BERT基效应,而其参数量仅为BERT基模型的1/10。对于基于ELECTRA的模型,它在大多数任务中超过了BERT-base甚至RoBERTa-wwm-ext。

      有关具体用途,请参见Github项目:

      https://github.com/ymcui/Chinese-ELECTRA

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3105.html

          热门文章

          文章分类