Hinton团队胶囊网络新进展:两种方法加持,精准检测防御对抗性攻击

最后更新：2020-04-02 14:24:41 手机定位技术交流文章

选自arXiv

作者:姚琴、杰弗里·辛顿等

机器编译的核心

参与:王子嘉，极客人工智能

2017年，图灵奖获得者辛顿提出的胶囊网络为深入学习研究打开了新的大门。自此，胶囊网络的探索成为该领域的前沿研究课题。2018年11月，辛顿团队在论文《darccc:通过从类条件胶囊中重新签约来检测顾问》中提出了一种通过图像重建网络监控对抗攻击的方法。上个月，韩丁团队进一步努力进一步提高胶囊网络在机器学习安全领域的应用。

地址:https://arxiv.org/abs/2002.07405

介绍

在本文中，我们提出了一种基于胶囊层的新方法(Sabour等人，2017；秦等人，2020)的网络和检测机制，它可以准确地检测攻击，对于未检测到的攻击，它通常还可以迫使攻击者生成类似于目标类的图像(从而导致它们被偏转)。我们的网络结构由两部分组成:对输入进行分类的胶囊分类网络和根据预测的胶囊姿态参数重建输入图像的重建网络。

图3:具有循环一致性的获奖胶囊重构网络架构。

除外(Sabour等人，2017年；Qin等人，2020)，我们还引入了额外的循环一致性训练损失，这迫使获胜胶囊重建结果的分类与原始输入的分类相同。这种新的辅助训练的损失促使重构更严格地将分布与类别条件相匹配，并且也有助于模型检测和对攻击的偏转。

此外，我们还提出了两种新的攻击不可知检测方法，这两种方法基于干净输入和具有对抗输入的获胜胶囊重建之间的差异。我们证明在SVHN和CIFAR-10数据集上，基于三种不同的变形度量——EAD(陈等，2018)、CW(卡里尼和瓦格纳，2017)和(马德里等，2017)证明该方法能够准确地检测白盒和黑盒攻击。

检测模式

在本文中，我们使用三种基于重构的检测方法来检测标准攻击。这三种方法是:(1)全局阈值检测器()，局部最佳检测器(LBD)和循环一致性检测器(CCD)，它们是由秦等人在2020年首次提出的。

全局阈值检测器

当输入受到敌对攻击的干扰时，输入的分类结果可能不正确，但重构结果往往是模糊的，因此敌对输入和重构结果之间的距离大于正常输入和重构结果之间的预期距离。这使我们能够通过全局阈值检测器检测敌对输入。秦等人在2020年发表的论文中提出的方法测量获胜胶囊的输入和重建结果之间的重建误差。如果重建误差大于全局阈值θ:

然后输入将被标记为对抗样本。

局部最优检测器

当输入是干净图像时，获胜胶囊的重建误差小于失败胶囊的重建误差，并且相关示例在图4的第一行中示出。

然而，当输入是对抗示例时，从对应于正确标签的胶囊的重建结果比对应于获胜胶囊的重建结果更接近输入(参见图4中的第二行)。

图4:干净输入的例子，由PGD攻击产生的对抗例子，以及由每个类别的胶囊重建干净输入和对抗输入。

因此，我们建议使用“局部最佳检测器”来检测这些对抗性图像。获胜胶囊引起的重建误差不是最小的:

其中n是数据集中的类数。

循环一致性检测器

如果输入是干净的图像，获胜胶囊的重建结果将与输入非常相似。理想情况下，我们的模型应该将获胜胶囊和干净输入的重建结果标记为同一类别。这种行为通过使用循环一致性损失的训练得到加强。

然而，当输入是一个对抗性的例子时，它在视觉上无法与干净的图像区分开来，但是它迫使模型将其预测为目标类别。获胜胶囊的重建结果通常看起来更接近干净的输入或者变得模糊。因此，获胜胶囊的重建结果通常不被分类为目标类别。

因此，循环一致性检测器(CCD)被设计成当输入X和获胜胶囊的重建结果不被确定为属于同一类时，将X标记为对抗样本。

能够感知防御机制的PGD攻击

为了产生这样的攻击，我们基于(秦等，2020)设计了对每个梯度步长的两阶段攻击。第一阶段试图通过跟随标准攻击(例如，标准PGD攻击)来欺骗分类器，该攻击的损失是其相对输入的交叉熵损失。然后，在第二阶段，我们通过考虑重构误差和循环一致性来关注欺骗检测机制。

实验

在提出了一种新的防御模型后，我们首先验证了它对于针对SVHN和CIFAR10数据集的各种攻击的检测性能。然后，我们使用人工研究来证明我们的模型经常迫使未被发现的攻击转向。

评价指标和数据集

在本文中，我们使用准确性来表示由我们的网络正确分类的干净示例的比例。我们使用成功率(成功的欺骗检测器预测为目标类别的对抗示例的比例)来衡量攻击的性能。

为了评估不同检测机制的性能，我们给出了误报率(FPR)和漏检率。

最后，我们进行了一项人工研究，以表明我们的模型可以有效地转移对抗攻击。

培训细节和测试集准确性

我们将批处理的大小设置为64，学习率设置为0.0001，从而在SVHN上训练网络。当使用来自CIFAR-10的数据进行培训时，批量设置为128，学习率为0.0002。我们使用亚当优化器(Kingma & Ba，2014)来训练所有模型。

我们在SVHN(Netzer等人，2011年)和CIFAR-10数据集(Krizhevsky，2009年)上测试了偏转模型。在干净样本数据集上的测试中，支持向量回归机的分类准确率为96.5%，而基于独立样本回归机的分类准确率为92.6%。这些结果表明，我们的偏转模型在清洁图像分类任务中具有优异的性能。

威胁模型

本文考虑两种常见的威胁模型:白盒模型和黑盒模型。对于白盒攻击，攻击者完全了解网络结构和参数，可以通过计算模型输出相对于输入的梯度来构造对抗性攻击。在黑盒模型环境中，攻击者知道目标模型的网络体系结构，但不能直接获得模型的参数。

为了生成针对目标模型的黑盒攻击，在具有相同网络结构的备选模型上进行训练，并进一步攻击白盒攻击，然后白盒攻击作为黑盒攻击转移到目标模型。

对抗性攻击

当攻击未知时，我们测试了基于不同距离度量的三种标准目标攻击检测机制:基于范数的EAD(Chen等人，2018年)、基于范数的连续波(Carlini & Wagner，2017年b)和基于L∞范数的PGD(madry等人，2017年)。此外，我们跟踪(Carlini & Wagner，2017a)，报告了我们的检测机制在检测可被视为防御的攻击方面的性能。

PGD攻击和PGD攻击的鲁棒性检测

在这一部分中，我们已经完成了基本的鲁棒性检测，以确保对抗攻击的真正实现，并确保我们的防御感知CC-PGD得到了很好的调整。我们在CIFAR-10数据集上测试了对我们的偏转模型的攻击。在SVHN数据集上也有类似的结论。

图5(a)显示白盒PGD和CC-PGD的成功率随着在CIFAR-10数据集上的迭代次数而变化。在图5(b)中，我们发现白盒PGD和CC-PGD的成功率随着拮抗干扰E∞的L∞界的增加而变化。在图5(c)中，我们使用一个阶段和两个阶段的优化来构建CC-PGD，它可以在CIFAR-10数据集上检测我们的偏转模型的防御机制。