CVPR | 对抗鲁棒视觉转换器的随机纠缠令牌

该论文发表于Conference on Computer Vision and Pattern Recognition(CVPR), 2024(CCF-A类会议),题目为《Random Entangled Tokens for Adversarially Robust Vision Transformer》。

悉尼大学的GongHuihui为此文第一作者。悉尼大学的Xu Chang为此文的通讯作者。

论文链接:https://openaccess.thecvf.com/content/CVPR2024/html/Gong_Random_Entangled_Tokens_for_Adversarially_Robust_Vision_Transformer_CVPR_2024_paper.html

论文概要

本文提出了一种新型的防御机制随机纠缠图像Transformer(ReiT),旨在提升视觉Transformer的对抗鲁棒性。近年来,ViT在计算机视觉领域表现卓越,但如同卷积神经网络,其对对抗攻击的抵抗能力较弱。传统的防御策略,如对抗训练和随机化方法已在卷积神经网络中展现了效果,但由于ViT的架构差异,直接迁移这些方法并不奏效。针对这一挑战,本文深入研究了ViT的自注意模块,并引入输入无关的随机纠缠自注意模块(II-ReSA)。该模块通过生成随机纠缠令牌来减少对抗扰动的相似性,从而降低攻击的转移性和有效性。在训练阶段,ReiT将不同的随机令牌加入输入令牌,使模型能够适应随机扰动;在推理阶段,通过优化生成的随机纠缠令牌,增强了模型的对抗鲁棒性。实验结果表明,ReiT框架在多个基准数据集和多种ViT变体下均表现出色,对比传统方法展现了显著的优势。这一研究为提升深度学习模型的鲁棒性提供了新的视角和方法。

研究背景

近年来,ViT作为一种新兴的神经网络架构,在图像分类、目标检测等任务中取得了显著成果。然而,与CNNs类似,ViT对对抗攻击的防御能力不足,对手可以通过微小的输入扰动来误导模型的预测。这种脆弱性引发了对提升模型对抗鲁棒性的广泛研究。对抗训练被认为是提高CNNs对抗鲁棒性的有效手段,它通过将对抗样本引入训练过程来增强模型的抵抗力。与此同时,随机化策略也被引入,通过在输入、模型参数或训练策略中引入随机性来抵御对抗样本。然而,由于ViT和CNNs在架构上的显著差异,这些方法在直接应用于ViT时面临诸多挑战。ViT依赖于多头自注意机制和层归一化,这与CNNs的特征提取和批量归一化大相径庭。为此,如何针对ViT的独特结构设计有效的防御机制,成为当前研究的重要课题。本文的研究工作正是针对这一背景,提出了一种基于随机化的创新性防御框架,为增强ViT的对抗鲁棒性提供了新方案。

方法

要了解文中使用的方法之前,要先了解对抗样本的定义,对抗样本是通过对输入数据进行微小扰动生成的,其目的是误导模型ℎ的预测。如下公式所示:

 

1. 重新审视自注意力模块

通常,通用的Transformer块包含归一化、多头自注意力(MSA)和多层感知机(MLP),如图1所示。给定输入令牌X∈ℝd×n(d表示向量数量,n是向量的维度),线性投影参数WQ∈ℝn×m ,WK∈ℝn×m 和WV∈ℝn×m(通常,m < n),查询、键和值矩阵定义为:

因此单头自注意力模块的输出可以表示为:

其中上标T表示矩阵转置;1/√dk表示缩放因子。注,Y的维度为ℝd×m。输入令牌X通过线性投影生成查询矩阵Q、键矩阵K和值矩阵V。然后通过缩放点积计算注意力权重,应用SoftMax函数得到注意力输出Y。

图1 原始的自注意力模块

2. 随机自注意力模块

作者认为在自注意模块中引入随机性,通过添加随机令牌来阻止对抗样本的生成,并提出局部SoftMax操作,从而减少计算复杂度和优化难度。

首先,引入随机令牌和自注意力计算,在输入中引入一个随机令牌r,其维度为1×n。将输入令牌与随机令牌拼接,得到Xr,带有随机令牌的查询矩阵Qr如下:

与Qr相同,可以得到键矩阵和值矩阵的表达式。扩展后的自注意矩阵的计算如下:

该矩阵的维度为(d+1)×(d+1),即输入维度增加了随机令牌后的维度。

直接对扩展后的自注意矩阵(QrKr)T​应用全局SoftMax,则需要大量的计算工作,随着网络深度的增加,这可能会带来沉重的计算负担,而且这种全局SoftMax操作会对self-attention计算产生不利影响,因为全局随机化会引入self-attention的过度随机化,增加模型参数优化的难度。为解决上述两个挑战,作者提出了Local SoftMax操作(LSM)用于降低计算成本,减少优化难度:

其中矩阵维度为(d+1)×(d+1)。这里,作者只计算原始输入令牌部分的SoftMax输出,这与原始的自注意力计算一致。因此,随机自注意力输出定义为:

最终输出Yout​=Y+R 这一结果将自注意输出与随机令牌的输出结合,如图2所示,提高了对抗鲁棒性。总结来说,通过在自注意模块中引入随机令牌和局部SoftMax操作,在保持计算效率的同时,增强了模型的对抗鲁棒性。

图2 引入随机令牌的自注意力模块

3. 输入无关的随机纠缠自注意力模块

为了进一步增强ViT的鲁棒性,作者通过引入二元随机噪声来改进随机纠缠自注意力模块。假设有两个随机标记,r1和r2,作者可以获得两个加性随机噪声输出R1和R2。作者的目标是最小化两个随机自注意力输出的对抗相似性,即Yout,1=Y+R1和Yout,2=Y+R2,这相当于最大化差异函数 D(·,·)的梯度,如下所示:

作者使用余弦相似度[A·B/(||A||·|B||)]来表示距离函数D(·,·)。最大化距离的目标转变为最小化梯度的余弦相似度。Y out,1和Yout,2的X。此外,余弦相似度公式的分母(两个矩阵/向量的模的乘积)不会影响优化。因此,余弦相似度可以降级为点乘,从而大大降低计算成本。退化的目标函数可以写成:

给定一个确定的的r1,作者的目标是找到另一个随机纠缠令牌r2,通过最大化方程来导致不同的输出。注,∂Y/∂X是偏导数,因此独立于随机纠缠令牌r1和r2; ∂R1/∂X是关于偏导数R1的X,因此独立于r2 。因此,方程的目标可写为:

为了与X解耦以更有效地优化r2,可以省略∂Y/∂X项。因此,等式可以近似为:

目标函数被表示为f(r2)。因此,上述优化与X(即输入标记)无关。注,只能使用自注意力线性投影参数(WQ、WK和WV)和r1来优化r2,这是一种局部操作并且需要计算成本非常低。由于r2源自r1,因此作者将这两个随机令牌称为“随机纠缠令牌对”或简称为“随机纠缠令牌”。 因为所提出的自注意力独立于输入标记并且涉及两个随机纠缠令牌,所以将其称为输入独立随机纠缠自注意力(II-ReSA)。本节架构如图3所示:

图3 输入独立随机纠缠自注意力

结果分析

数据集:由于对抗训练的耗时开销,小数据集在对抗研究中仍然很受欢迎。因此,作者采用 CIFAR-10和CIFAR-100的基准。两个数据集均包含50,000个训练样本和10,000个测试样本,所有样本均为32×32像素。CIFAR-10数据集包含10个类别,而CIFAR-100包含100个类别。此外,作者还在大数据集上进行了实验,例如ImageNet-1K和ImageNette。ImageNet 是一个包含1000个类别、120万个训练样本和50,000个测试样本的数据集,所有这些示例的大小均为224×224像素。ImageNette是ImageNet的10个类的子集,包含约13,000个训练图像和500个测试图像。

模型:作者在实验中选择了三种不同类型的ViT架构:vanilla ViT、DeiT和Swin Transformer (Swin)。对于CIFAR-10和CIFAR-100,ViT和DeiT的patch大小设置为4。此外,Swin的patch大小和窗口大小分别设置为2和4。对于ImageNet和ImageNette,ViT和DeiT的patch大小设置为16。Swin的patch大小和窗口大小分别设置为4和7。由于计算资源限制,作者使用ViT的小型版本进行实验,即ViT-S、ViT-T、DeiT-S、DeiT-T、Swin-S和Swin-T。

训练设置:作者使用提供的预训练参数初始化网络。对于CIFAR-10、CIFAR-100和 ImageNette,使用不同的训练方法训练鲁棒模型:标准(NAT)、 一步快速梯度符号法(FGSM)、多步投影梯度下降(PGD)。所有模型都训练40个epoch。在对抗性设置中,我 们将最大扰动设置为8/255,步长设置为2/255,多步对抗的步数为10,使用SGD优化器,权重衰减为1e-4。

从表中可以明显看出,作者的方法在不同的对抗环境下优于不同训练方法的基线。例如,ReiT对于所见的对抗性攻击实现了更好的对抗准确性:普通PGD训练的ViT-S模型在PGD 攻击下实现了51.51%的对抗准确性,而ReiT的PGD训练的ViT-S模型实现了52.86%(+1.35%)的对抗准确性。作者将这种优势归因于其提出的II-ReSA模块对对抗性扰动的获取的负面干扰。此外,作者还发现随机方法可以有效防御看不见的白盒或黑盒攻击,例如 DeepFool、CW和AutoAttack,其中包括黑盒攻击Square Attack。这意味随机纠缠方法在防御看不见的攻击方面发挥了有效的作用。此外,ReiT可以在一定程度上缓解灾难性的过度拟合现象,例如,普通的FGSM训练的ViT-S和PGD训练好的DeiT-T模型过度拟合,与其他模型相比,其对抗性能大幅下降,而相应的ReiT模型则表现出更好的对抗性能。然而,作者的随机方法通常比普通方法获得的自然精度稍低,这可能是因为II-ReSA模块会给推理过程引入噪声,这有利于鲁棒推理,但不利于自然推理。

表1. CIFAR-10和CIFAR-100数据集的对抗训练方法下不同ViT变体的ReiT实验结果

作者在ImageNette和ImageNet上提供了更多实验来评估ReiT在大型数据集上的性能。作者在ImageNette上训练了三种ViT模型(ViT-T、DeiT-T和Swin-T),并在ImageNet上训练了一种模型(DeiT-T),并使用NAT、FGSM、MIFGSM、PGD 和CW攻击对训练后的模型进行了评估。结果如表2所示。从中可以看出,作者提出的ReiT比基线方法实现了更好的对抗鲁棒性。

表2.ImageNette和ImageNet数据集的对抗训练方法下不同ViT变体的ReiT的实验结果 

为了更好地说明作者提出的ReiT的优越性,作者将其提出的方法与中最先进的鲁棒 ViT进行比较,后者提出了两种有用的方法,即注意力随机下降(ARD)和扰动随机掩蔽(PRM),以提高ViT的鲁棒性。由于ARD和RPM方法在其工作中取得了最佳性能,因此直接使用该方法作为比较的基准。具体来说,在作者提出的训练设置下保留他们的模型,以便将作者的方法与那些方法公平地进行比较。为了进行推理,作者在 PGD-20(最大扰动为8/255的20步PGD攻击)、PGD-100(最大扰动为8/255的100步PGD攻击)和AutoAttack(AA)的CIFAR-10数据集下评估所有方法。结果如表3所示,从中发现作者的ReiT在不同的对抗环境下可以取得更好的性能。例如,在DeiT-T模型的AutoAttack攻击下,与普通方法相比,作者的方法实现了4.85%的增量,而ARD &PRM方法仅实现了1.29%的增量。

表3.CIFAR-10数据集上与鲁棒ViT方法的比较结果

结论

在本文中,利用ViT中自注意力模块的独特架构,作者引入了一种创新的与输入无关的随机纠缠自注意力(II-ReSA)模块,该模块增强了ViT对对抗攻击的鲁棒性。此外,作者还提出了一种称为随机纠缠图像变换器(ReiT)的新颖框架,采用双层随机化策略来有效增强对抗鲁棒性。综合实验验证了作者提出的ReiT的优越性,与广泛采用的基准数据集上的其他技术相比,它实现了更好的鲁棒性能。

 

撰稿人:韩翌晨

审稿人:何乐为


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: