Patch-Fool：Vision Transformer 是否总是对对抗性扰动具有稳健性？

ICLR Mar, 2022

Patch-Fool：Vision Transformer 是否总是对对抗性扰动具有稳健性？

Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations?

Yonggan Fu, Shunyao Zhang, Shang Wu, Cheng Wan, Yingyan Lin

TL;DR 本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素，提出了一种名为 Patch-Fool 的攻击框架，通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制，并发现在 Patch-Fool 攻击下，ViTs 不一定比 CNNs 更具鲁棒性。

Abstract

vision transformers (ViTs) have recently set off a new wave in neural architecture design thanks to their record-breaking performance in various vision tasks. In parallel, to fulfill the goal of deploying ViTs into real-world vision applications, their →

vision transformers adversarial attacks cnns robustness patch-fool

发现论文，激发创造

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

查询高效的硬标签黑盒攻击视觉变换器

本文研究视觉变换器（ViTs）在黑盒情况下对抗性攻击的脆弱性，并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法，通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度，并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明，与对卷积神经网络的最新攻击相比，我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲，充分验证了 ViTs 在对抗性攻击下的脆弱性。

Jun, 2024

面向 Vision Transformers 的可迁移对抗攻击

这篇论文提出了一种双重攻击框架，包括 PNA 攻击和 PatchOut 攻击，用于针对 ViTs 的结构进行特殊定制的对抗攻击，包括考虑补丁和自注意力，从而提高对抗样本的可转移性，实验证明，这种攻击方法可大大提高 ViTs 之间的可转移性，并结合现有的转移方法进行性能提升。

Sep, 2021

视觉 Transformer 对抗攻击鲁棒性揭示

本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究，实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析，对注意力模型进行了深入理解。

Jun, 2021

通过柯西问题理解视觉 Transformers 的对抗稳健性

本文通过理论证明和实证分析，探讨了 Vision Transformers 模型的稳健性，证实其在抵抗自然干扰和强攻击方面优于卷积神经网络，并且证明了模型的 Lipschitz 连续性，进一步分析了模型的关键因素和结构，发现 Multi-head Self-Attention 在抵抗弱攻击方面有所贡献，但在抵抗强攻击方面实际上会削弱模型的稳健性。

Aug, 2022

Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能，并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒，其中频率分析表明，最具鲁棒性的 ViT 架构倾向于依赖于低频特征，而 MLP-Mixer 则极易受到普适性对抗扰动的影响。

Oct, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

训练鲁棒性视觉 Transformer 的轻量级配方

本文研究使用 Vision Transformers 架构在对抗训练中对抗外部攻击的鲁棒性问题，并使用 ImageNet 数据集的子集进行严格的消融研究，找到了一种改进后的训练方法，可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。

Sep, 2022

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021