华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

      最后更新:2020-05-20 12:33:56 手机定位技术交流文章

      奥菲寺量子比特报告甘明·雷锦|公开号码QbitAI

      美国继续阻挠,华为的技术自我研究已经深入到人工智能底层算法层面,并已开始向行业开放源代码研究成果。

      刚才,华为诺亚的开源否认算法(文章末尾的地址)直接针对谷歌的放弃算法申请了专利。

      此外,华为的新算法在许多任务上都超过了Dropout。例如,在ImageNet上训练的ResNet-50可以达到78.76%的准确率,而谷歌的辍学系列方法只有76.8%。

      该算法背后的论文已经被AAAI 2020收集并公开。还介绍了华为对Disout的具体提议。

      华为自主研发项目:几项人工智能任务超额完成

      在申请专利时,谷歌将辍学定义为“一种解决神经网络过度拟合的系统和方法”

      其核心思想是在训练神经网络的前向传播过程中,Dropout可以使神经元的激活值以一定的概率P即“Drop”停止工作,提高了模型的稳定性,缓解了过拟合现象。

      Disout是一种新的选择,它是一种通过研究特征映射的扰动来提高深度神经网络泛化能力的方法。

      简而言之,给定深度神经网络的泛化误差的上限是根据网络中间层的拉德马赫复杂度(ERC)来确定的。

      在特征图中引入扰动,降低网络的Rademacher复杂度,提高网络的泛化能力。

      下图显示了它们之间的区别,即干扰输出特性而不是丢弃它们。

      相比之下,华为的方法更有效。

      Disout不仅在传统视觉任务中表现出色,超过了谷歌drop的性能,而且在自然语言处理任务和语音处理任务中也很有效。

      接下来,让我们来看一下Disout和Dropout系列方法在不同数据集上的比较。

      首先,对CIFAR-10和CIFAR-100数据的准确性进行了比较。

      在全连接层实验中,华为提出的特征映射扰动法训练CNN达到了85.24%的准确率。在CIFAR-10和CIFAR-100数据集上,与最新的RDdrop方法相比,测试准确率分别提高了2.13%和1.58%。

      华为研究人员表示,他们的Disout方法可以有效降低经验Rademacher的复杂度,同时保持模型的表示能力,从而具有更好的测试性能。

      在卷积层实验中,华为的方法可以应用于卷积层,提高深度神经网络的性能,优于DropBlock方法,性能分别提高了0.32%和0.63%。

      ImageNet数据集实验结果也表明,华为提出的特征扰动方法不仅可以取代传统的Dropblock方法来提高深度神经网络的性能,而且可以提高最近提出的drop block方法的性能。

      与传统的丢弃法相比,Disout法的准确率从76.80%提高到77.71%,Block Disout法的前1名准确率达到78.76%,超过了现有的其他技术。

      华为研究人员表示,他们的方法可以提高泛化能力,并保留原始特征的有用信息。

      此外,他们还对文本数据集IMDB和语音数据集UrbanSound8k进行了实验,结果如下(文本在顶部,语音在底部):

      核心突破:干扰输出特性,而不是丢弃

      那么,到底是怎么做到的呢?让我们来看看一般化理论。

      一般化理论研究期望风险和体验风险之间的关系。

      以图像分类任务为例,分析了训练集的总体预期风险和经验风险。

      是的:

      拉德马赫的经验复杂性(ERC)被广泛用于量化预期风险和经验风险之间的差距,其定义见定义1。

      定义1:给定由分布q形成的实例D= {(x,y)}的给定训练数据集,网络的经验Rademacher复杂度定义为:

      其中Rademacher变量是{-1,+1}中的独立一致随机变量。

      利用经验的雷德梅克复杂性和马迪米德不等式,期望风险的上限可以由定理1得到。

      定理1:给定< 0,对于任何> 0,至少概率为1,对于所有∈,满足

      根据定理1,研究人员发现,预期风险和经验风险之间的差距可以被特定神经网络和数据集上的经验拉德马赫复杂性所限制。

      很难直接计算ERC,因此在训练阶段通常使用ERC的上限或近似值来获得具有更好泛化能力的模型。

      在理解了概化理论之后,让我们来看看特征图的扰动。

      研究人员通过降低网络的ERC来学习特征图的扰动值,而不是固定扰动值。

      通常,应用于具有输入数据xi的第L层的输出特征F1(Xi)的干扰操作可以表示为:

      其中εli是特征图上的扰动。

      上述方程中的扰动形式是在ERC指导下通过自学获得的。由于ERC是根据网络最后一层的输出计算出来的,因此很难直接用它来引导扰动。

      因此,研究人员利用下面的定理通过网络中间层的输出来间接表达网络的ERC:

      定理2使用Kl

      0和F分别是激活该功能之前和之后的特征图。订单:

      然后:

      然后,通过求解以下方程可以获得最佳扰动:

      直觉上,过于严重的干扰会破坏原始特征,降低网络的表示能力。太小的扰动不能很好地实现正则化效果。

      算法如下:

      华为诺亚实验室生产的实习生

      本文由北京大学、华为诺亚和悉尼大学的7名研究人员组成。核心团队来自华为诺亚实验室。

      北京大学的唐就是其中之一,他在华为诺亚实验室实习期间完成了这项研究。

      第二份工作是,华为诺亚方舟实验室的技术专家,唐实习期间的导师。

      他毕业于北京大学,发表了40多篇相关领域的学术论文,包括神经科、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAI等。

      他主要从事边缘计算领域的算法开发和工程登陆,研究领域包括深度神经网络的模型切割、量化、提取和自动搜索。

      其他作者包括华为诺亚实验室的徐宜兴、徐春净和北京大学的许超。

      如果您对这项研究感兴趣,请收起门户网站:

      开源链接:https://github.com/huawei-noah/Disout

      论文链接:https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf

      -完毕-

      量子比特签了合同。

      请密切关注我们,首先了解最新的技术发展。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/7094.html

          热门文章

          文章分类