Hinton团队胶囊网络新进展:两种方法加持,精准检测防御对抗性攻击

      最后更新:2020-04-02 14:24:41 手机定位技术交流文章

      选自arXiv

      作者:姚琴、杰弗里·辛顿等

      机器编译的核心

      参与:王子嘉,极客人工智能

      2017年,图灵奖获得者辛顿提出的胶囊网络为深入学习研究打开了新的大门。自此,胶囊网络的探索成为该领域的前沿研究课题。2018年11月,辛顿团队在论文《darccc:通过从类条件胶囊中重新签约来检测顾问》中提出了一种通过图像重建网络监控对抗攻击的方法。上个月,韩丁团队进一步努力进一步提高胶囊网络在机器学习安全领域的应用。

      地址:https://arxiv.org/abs/2002.07405

      介绍

      在本文中,我们提出了一种基于胶囊层的新方法(Sabour等人,2017;秦等人,2020)的网络和检测机制,它可以准确地检测攻击,对于未检测到的攻击,它通常还可以迫使攻击者生成类似于目标类的图像(从而导致它们被偏转)。我们的网络结构由两部分组成:对输入进行分类的胶囊分类网络和根据预测的胶囊姿态参数重建输入图像的重建网络。

      图3:具有循环一致性的获奖胶囊重构网络架构。

      除外(Sabour等人,2017年;Qin等人,2020),我们还引入了额外的循环一致性训练损失,这迫使获胜胶囊重建结果的分类与原始输入的分类相同。这种新的辅助训练的损失促使重构更严格地将分布与类别条件相匹配,并且也有助于模型检测和对攻击的偏转。

      此外,我们还提出了两种新的攻击不可知检测方法,这两种方法基于干净输入和具有对抗输入的获胜胶囊重建之间的差异。我们证明在SVHN和CIFAR-10数据集上,基于三种不同的变形度量——EAD(陈等,2018)、CW(卡里尼和瓦格纳,2017)和(马德里等,2017)证明该方法能够准确地检测白盒和黑盒攻击。

      检测模式

      在本文中,我们使用三种基于重构的检测方法来检测标准攻击。这三种方法是:(1)全局阈值检测器(),局部最佳检测器(LBD)和循环一致性检测器(CCD),它们是由秦等人在2020年首次提出的。

      全局阈值检测器

      当输入受到敌对攻击的干扰时,输入的分类结果可能不正确,但重构结果往往是模糊的,因此敌对输入和重构结果之间的距离大于正常输入和重构结果之间的预期距离。这使我们能够通过全局阈值检测器检测敌对输入。秦等人在2020年发表的论文中提出的方法测量获胜胶囊的输入和重建结果之间的重建误差。如果重建误差大于全局阈值θ:

      然后输入将被标记为对抗样本。

      局部最优检测器

      当输入是干净图像时,获胜胶囊的重建误差小于失败胶囊的重建误差,并且相关示例在图4的第一行中示出。

      然而,当输入是对抗示例时,从对应于正确标签的胶囊的重建结果比对应于获胜胶囊的重建结果更接近输入(参见图4中的第二行)。

      图4:干净输入的例子,由PGD攻击产生的对抗例子,以及由每个类别的胶囊重建干净输入和对抗输入。

      因此,我们建议使用“局部最佳检测器”来检测这些对抗性图像。获胜胶囊引起的重建误差不是最小的:

      其中n是数据集中的类数。

      循环一致性检测器

      如果输入是干净的图像,获胜胶囊的重建结果将与输入非常相似。理想情况下,我们的模型应该将获胜胶囊和干净输入的重建结果标记为同一类别。这种行为通过使用循环一致性损失的训练得到加强。

      然而,当输入是一个对抗性的例子时,它在视觉上无法与干净的图像区分开来,但是它迫使模型将其预测为目标类别。获胜胶囊的重建结果通常看起来更接近干净的输入或者变得模糊。因此,获胜胶囊的重建结果通常不被分类为目标类别。

      因此,循环一致性检测器(CCD)被设计成当输入X和获胜胶囊的重建结果不被确定为属于同一类时,将X标记为对抗样本。

      能够感知防御机制的PGD攻击

      为了产生这样的攻击,我们基于(秦等,2020)设计了对每个梯度步长的两阶段攻击。第一阶段试图通过跟随标准攻击(例如,标准PGD攻击)来欺骗分类器,该攻击的损失是其相对输入的交叉熵损失。然后,在第二阶段,我们通过考虑重构误差和循环一致性来关注欺骗检测机制。

      实验

      在提出了一种新的防御模型后,我们首先验证了它对于针对SVHN和CIFAR10数据集的各种攻击的检测性能。然后,我们使用人工研究来证明我们的模型经常迫使未被发现的攻击转向。

      评价指标和数据集

      在本文中,我们使用准确性来表示由我们的网络正确分类的干净示例的比例。我们使用成功率(成功的欺骗检测器预测为目标类别的对抗示例的比例)来衡量攻击的性能。

      为了评估不同检测机制的性能,我们给出了误报率(FPR)和漏检率。

      最后,我们进行了一项人工研究,以表明我们的模型可以有效地转移对抗攻击。

      培训细节和测试集准确性

      我们将批处理的大小设置为64,学习率设置为0.0001,从而在SVHN上训练网络。当使用来自CIFAR-10的数据进行培训时,批量设置为128,学习率为0.0002。我们使用亚当优化器(Kingma & Ba,2014)来训练所有模型。

      我们在SVHN(Netzer等人,2011年)和CIFAR-10数据集(Krizhevsky,2009年)上测试了偏转模型。在干净样本数据集上的测试中,支持向量回归机的分类准确率为96.5%,而基于独立样本回归机的分类准确率为92.6%。这些结果表明,我们的偏转模型在清洁图像分类任务中具有优异的性能。

      威胁模型

      本文考虑两种常见的威胁模型:白盒模型和黑盒模型。对于白盒攻击,攻击者完全了解网络结构和参数,可以通过计算模型输出相对于输入的梯度来构造对抗性攻击。在黑盒模型环境中,攻击者知道目标模型的网络体系结构,但不能直接获得模型的参数。

      为了生成针对目标模型的黑盒攻击,在具有相同网络结构的备选模型上进行训练,并进一步攻击白盒攻击,然后白盒攻击作为黑盒攻击转移到目标模型。

      对抗性攻击

      当攻击未知时,我们测试了基于不同距离度量的三种标准目标攻击检测机制:基于范数的EAD(Chen等人,2018年)、基于范数的连续波(Carlini & Wagner,2017年b)和基于L∞范数的PGD(madry等人,2017年)。此外,我们跟踪(Carlini & Wagner,2017a),报告了我们的检测机制在检测可被视为防御的攻击方面的性能。

      PGD攻击和PGD攻击的鲁棒性检测

      在这一部分中,我们已经完成了基本的鲁棒性检测,以确保对抗攻击的真正实现,并确保我们的防御感知CC-PGD得到了很好的调整。我们在CIFAR-10数据集上测试了对我们的偏转模型的攻击。在SVHN数据集上也有类似的结论。

      图5(a)显示白盒PGD和CC-PGD的成功率随着在CIFAR-10数据集上的迭代次数而变化。在图5(b)中,我们发现白盒PGD和CC-PGD的成功率随着拮抗干扰E∞的L∞界的增加而变化。在图5(c)中,我们使用一个阶段和两个阶段的优化来构建CC-PGD,它可以在CIFAR-10数据集上检测我们的偏转模型的防御机制。

      图5。

      模型简化实验

      在图10中,我们绘制了由不同检测器标记的白盒对攻击的误报率和干净输入的误报率。

      图10。

      为了证明本文提出的循环一致性损失的有效性,我们构造了一个基线胶囊模型,该模型具有与我们的偏转模型相同的网络结构,但是在训练之后没有使用额外的循环一致性损失。

      图5(d)显示了在CIFAR-10数据集上,白盒攻击的未检测率和干净输入的假阳性率(FPR)可以实现防御机制。

      检测白盒攻击

      如图7所示,对于SVHN和CIFAR-10数据集,我们的检测方法对于所有三种标准白盒攻击(EAD、CW和PGD)都具有非常低的误报率。其中,在FPR相同的情况下,PGD对我们的检测机制的攻击最强,失败率最高。

      图7:在SVHN和CIFAR-10数据集上,白盒和黑盒攻击的未检测率以及干净输入的假阳性率(FPR)。最强的攻击线下的区域最大。

      虽然我们可以清楚地看到,与标准的PGD攻击相比,CC-PGD的漏检率有所提高。然而,如表1所示,在SVHN上,白盒CC-PGD的成功率显著下降(从PGD: 96.0%到CC-PGD: 69.0%)。这表明攻击者需要牺牲一定的成功率才能被我们的检测机制检测到。

      表1。

      从表2中可以看出,虽然统计测试(Roth等人,2019年)和基于分类器的检测方法(Hosseini等人,2019年)可以成功地检测标准攻击,但是它们对可被视为防御的攻击的检测失败了。相比之下,我们提出的基于重构的检测机制在检测防御对抗攻击时漏检率最低,检测连续波攻击时漏检率仅为4.6%。

      表2:在CIFAR-10数据集上,漏检率与最先进检测方法的比较。

      检测黑盒攻击

      为了研究我们的检测机制的有效性,我们还测试了我们的黑盒攻击模型。在图7中,我们可以看到,在这两个数据集上,当输入是黑盒CC-PGD攻击时,失败率仅为白盒CC-PGD的一半。

      此外,如表1所示,白盒攻击和黑盒攻击的成功率之间存在巨大差距,这表明我们的防御模型显著降低了各种对抗攻击的移动性。

      偏转攻击

      人工肝研究

      为了验证我们的方法能够转移对抗攻击的论点,我们进行了一项人工研究。我们使用亚马逊土耳其机器人网络服务招募参与者,并要求人们标记SVHN号码。结果如图8所示。

      图8:人工研究SVHN的结果。最大L∞干扰是16/255。

      此外,与白盒攻击相比,黑盒环境中产生的更多未被发现且成功的对抗性攻击将被转移,从而变得类似于目标类。这表明,为了在更现实的场景(黑盒)中攻击我们的偏转模型,攻击将被偏转以避免被检测到,如图9所示。

      图9:对SVHN和CIFAR-10的偏转对抗攻击。SVHN的最大L∞干扰为16/255,CIFAR-10的最大L∞干扰为25/255。

      对CIFAR-10的偏转攻击

      为了证明我们的模型能够有效地转移对CIFAR-10数据集的对抗攻击,我们为每个类选择了一个转移的对抗攻击,最大L∞范数为25/255,如图9所示。

      显然,为了欺骗分类器和我们的检测机制,干净的输入已经被干扰并且具有目标类的代表性特征。实验结果表明,我们的模型也成功地避开了这些对抗攻击。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3500.html

          热门文章

          文章分类