李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

      最后更新:2020-04-20 12:09:33 手机定位技术交流文章

      13来自奥菲寺量子比特报告|公开号码QbitAI

      在图像处理领域,近年来新的模型层出不穷。

      然而,在大多数下游任务中,例如目标检测和语义分割,ResNet或其变体仍然被用作骨干网络。

      最近,亚马逊的李牧团队提出了——ResNeSt,可以称之为“ResNet最强的改进版本”。

      从名称中不难看出,引入了一个模块化的分散模块,以允许关注跨要素地图组。

      那么,ResNeSt有多强?

      ResNeSt-50在224×224的ImageNet上实现了81.13%的TOP-1精度,比之前的最佳ResNet变体精度高出1%以上。简单地用ResNeSt-50替换ResNet-50主干,可以将移动通信系统上的FasterRCNNNN映射从39.25%提高到42.33%;ADE20K上的深度labV3的MIoU从42.1%增加到45.1%。这些改进对下游任务有很大帮助,包括目标检测、实例分割和语义分割。

      就连李牧也派了一个朋友圈,呼吁他的朋友们“一键式升级”。

      更令人惊讶的是,这项工作已经展开了!

      最强ResNet变体:多任务赢得“大满贯”

      现在,让我们具体看看ResNeSt在特定任务中的性能。

      图像分类

      第一个实验研究了ResNeSt在ImageNet 2012数据集上的图像分类性能。

      通过将ResNeSt与具有50层和101层配置的类似复杂性的其他ResNet变体进行比较,TOP-1实现了最高的准确性,如下表所示。

      它还与不同尺寸的美国有线电视新闻网模型进行了比较。

      采用256×256的ResNeSt-200和320×320的ResNeSt-269。对于输入大小大于256的模型,采用双三次上采样策略。

      从下表不难看出,与基于NAS发现的模型相比,ResNeSt具有更好的准确性和延迟权衡。

      目标检测

      接下来是目标检测的性能。

      所有型号都是在COCO-2017训练集上训练的118k图像,并通过COCO-2017验证集上的5k图像进行评估。

      所有模型都使用FPN、同步批处理标准化和图像比例增强进行训练。

      为了便于比较,普通ResNet的主干被ResNeSt简单地替换,并且使用默认的超级参数。

      与使用标准资源网的基线相比,资源网的主干可以在快速资源网和级联资源网上提高平均精度约3%。

      这表明ResNeSt的主干网具有良好的泛化能力,可以方便地迁移到下游任务。

      值得注意的是,在更快RCNN和级联RCNN检测模型中,ResNeSt50都优于ResNet101,并且使用的参数明显更少。

      实例分割

      在实例分割任务中,以ResNeSt-50和ResNeSt-101为骨干对掩码-RCNN和级联掩码-RCNN模型进行评估。

      实验结果如下表所示。对于掩模-RCNNN,ResNeSt50的盒/掩模性能增益分别为2.85%/2.09%,而ResNeSt101表现出较好的改善,达到4.03%/3.14%。

      对于级联-屏蔽-RCNN,切换到ResNeSt50或ResNeSt101产生的增益分别为3.13%/2.36%或3.51%/3.04%。

      这表明如果一个模型由更多的注意力分散模块组成,它的效果会更好。

      语义分割

      在语义分割下游任务的迁移学习中,使用深度LabV3的GluonCV实现作为基准方法。

      从下表中不难看出,ResNeSt将DeepLabV3模型实现的mIoU提高了约1%,同时保持了相似的整体模型复杂性。

      值得注意的是,使用ResNeSt-50的DeepLabV3模型比使用更大的ResNet-101的DeepLabV3具有更好的性能。

      注意力分散网络

      凭借如此出色的性能,ResNet有哪些改进?

      接下来,让我们揭开ResNeSt的面纱。

      正如我们刚才提到的,ResNet是基于ResNet的,它引入了分割注意块,可以实现不同特征映射组之间的特征映射注意。

      分裂注意力块是一个计算单元,由一个特征映射组和一个分裂注意力操作组成。接下来的两幅图描述了基数组中的注意力分散区和注意力分散区。

      从上面两张照片中不难看出有分裂的阴影。例如,K(k)和R(r)都是超参数,即总群g = k * r

      此外,它还可以与东南网和SK网相比较。

      其中,社交网络引入了渠道关注机制;SK-Net通过两个网络分支引入了特征映射注意。

      资源网、服务网和服务网的对应图如下:

      研究人员介绍

      李牧是亚马逊的首席科学家,加州大学伯克利分校的客座助理教授,卡耐基梅隆大学的计算机科学博士。

      关注分布式系统和机器学习算法。他是深度学习框架MXNet的作者之一。

      机器学习初创公司马里亚纳实验室的前首席技术官和百度深度学习研究所的首席研发设计师。

      李牧研究成果丰富,在国内外主流期刊上发表了许多学术论文。其中,“双事实分布因子分解机”在美国计算机学会国际网络搜索和数据挖掘(WSDM)会议上获得最佳论文奖。

      入口

      地址:https://hangzhang.org/files/resnest.pdf

      GitHub项目地址:https://github.com/zhanghang1989/ResNeSt

      -完毕-

      量子比特签了合同。

      请密切关注我们,首先了解最新的技术发展。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/4841.html

          热门文章

          文章分类