​从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化

      最后更新:2020-05-09 11:06:52 手机定位技术交流文章

      选自中等

      作者:eriklibecker

      机器编译的核心

      参与:NeuR

      神经结构搜索取代了人类的“二阶”参数调整,使我们能够在两层黑箱中找到最优的神经网络。如果这种模式能够以好的质量和低的价格应用,它自然是非常有吸引力的。有必要知道,“28天800图形处理器培训”基本上是个人负担不起的。在本文中,作者介绍了NAS的发展历史,即如何使用各种改进方法将培训成本降低到“人人都能接触到”的程度。

      神经网络体系结构搜索改变了构建新的神经网络体系结构的过程。这种技术可以自动找到特定问题的最佳神经网络结构。“最佳”的定义可以看作是对多个特征之间的权衡过程进行建模,例如网络的大小和精度。

      图1:训练NAS控制器的迭代过程图:训练控制器(RNN),抽样结构a,概率为p,训练结构a的子网络获得精度r,计算p的梯度,并乘以r以更新控制器。

      简而言之,这个过程类似于人类手动搜索最佳架构的过程。基于最优操作和超级参数空的预定义搜索,控制器将测试不同的神经网络配置。在这种情况下,测试配置意味着组装、训练和评估神经网络以观察其性能。

      经过多次迭代,控制器将知道在搜索空的范围内哪些配置可以形成最佳的神经网络。不幸的是,在search 空之间寻找最佳架构所需的迭代次数非常大,因此过程非常缓慢。

      部分原因是search 空受到组合爆炸的影响,也就是说,search 空中可能的网络数量随着search 空中添加的组件数量而大幅增加。然而,这种方法确实找到了当前最好的(SOTA)网络,它现在被称为NASnet

      图2: resnet架构示例,其中剩余块被表示为“resnet块”。

      答案可以在最著名的计算机视觉体系结构ResNet中找到。

      图3: nas单元被建模为有向无环图,其中边表示操作,节点表示计算单元,计算单元转换并组合先前的节点以创建新的隐藏状态。

      通过定义搜索构造块中允许存在的隐藏状态的数量,在空之间的搜索变得非常有限。换句话说,构建块中可能的操作组合数量很大,但不是无限的。如果隐藏状态被排序,并且它们的拓扑被预定义为有向无环图(DAG),那么搜索空如图3所示。

      使用搜索空,我们可以将控制器提出的体系结构视为来自更大网络的子网,其中更大的网络和子网共享相同的隐藏状态(节点)。

      当控制器建议使用某个网络体系结构时,这意味着选择一组连接(边)的子集,并为隐藏状态(节点)分配新的操作。这种形式意味着在编码模式下很容易保存节点上操作的权重,从而实现权重继承。在网络连接存储设置中,这意味着先前体系结构的权重可以用作下一个采样网络的初始化。

      图4: a)边缘上的操作最初是未知的。通过在每条边上混合放置候选操作,连续释放搜索空间隔。c)在双层优化中,一些权重增加,而另一些权重减少。d)最终架构由两个节点之间权重最大的边构建而成[8]。

      如果控制器被移除并且边缘被改变以表示所有可能的操作,则搜索在空之间是可区分的。在这种密集的体系结构中,所有可能的操作都以加权和的形式在每个节点上进行组合。加权和是一个可学习的参数,使网络能够缩放不同的操作。这意味着对性能有害的操作可以减少,而“好的”操作可以扩展。在训练了更大的网络之后,剩下要做的就是观察权重并选择对应于更大权重的操作。

      通过区分搜索空和训练更大的网络(通常称为“超级网络”),我们不再需要训练多个架构,可以使用标准的梯度下降优化器。网络连接存储的独特性为未来的发展开辟了许多可能性。一个例子是在NAS中对[9]进行差分采样。因为每个前向传播和后向传播在搜索中需要较少的操作,所以该方法将搜索时间减少到只有4个小时。

      结论

      NAS培训时间从几天缩短到几小时的故事到此结束。在本文中,我试图概述推动网络连接存储发展的最重要的想法。现在,网络连接存储技术非常高效,任何拥有图形处理器的人都可以使用它。你还在等什么?

      参考:

      [1]https://arxiv.org/pdf/1807.11626.pdf

      [2]识别问题的自组织神经网络

      [3]https://arxiv.org/pdf/1611.01578.pdf

      [4]https://arxiv.org/pdf/1512.03385.pdf

      [5]https://arxiv.org/pdf/1707.07012.pdf

      [6]https://arxiv.org/pdf/1802.03268.pdf

      [7]https://arxiv.org/pdf/1604.02201.pdf

      [8]https://arxiv.org/pdf/1806.09055.pdf

      [9]https://arxiv.org/pdf/1910.04465.pdf

      原始链接:https://medium . com/pelt ario/how-nas-was-was-improved-from-days-to-hours-in-search-time-a 238 c 330 CD 49

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/6212.html

          热门文章

          文章分类