作者简介: 郭钰生, 男, 博士研究生, 主要研究方向为神经网络模型安全和信息隐藏。E-mall: [email protected]
钱振兴, 通信作者, 男, 教授, 主要研究方向为多媒体信息隐藏、多媒体取证、数字水印和AI安全。E-mall: [email protected]
张新鹏, 男, 教授, 主要研究方向为媒体信息安全、密文域信号处理、安全云计算、大数据隐私保护和数字图像处理。E-mail: [email protected]
柴洪峰, 男, 中国工程院院士, 主要研究方向为金融信息工程管理、金融科技与安全。E-mail: [email protected]
*通信作者: 钱振兴 [email protected] 后门攻击已成为目前卷积神经网络所面临的重要威胁。然而,当下的后门防御方法往往需要后门攻击和神经网络模型的一些先验知识,这限制了这些防御方法的应用场景。本文依托图像分类任务提出一种基于非语义信息抑制的后门防御方法,该方法不再需要相关的先验知识,只需要对网络的输入进行编解码处理就可以达到后门防御的目的。 方法 核心思想是在保持图像语义不改变的同时,尽量削弱原始样本中与图像语义不相关的信息,以此抑制触发器。通过在待保护模型前添加一个即插即用的U型网络(即信息提纯网络)来实现对图像非语义信息的抑制。其输入是干净的初始样本,输出命名为强化样本。具体的训练过程中,首先用不同的训练超参数训练多个结构不一的干净分类器,然后在保持强化样本被上述分类器正确分类的前提下,优化信息提纯网络使强化样本和原始样本之间的差异尽可能地大。 结果 实验在MNIST、CIFAR10和ImageNet10数据集上进行。实验结果显示,经过信息提纯网络编解码后,干净样本的分类准确率略有下降,后门攻击成功率大幅降低,带有触发器的样本以接近干净样本的准确率被正确预测。 结论 提出的非语义信息抑制防御方法能够在不需要相关先验知识的情况下将含触发器的样本纠正为正常样本,并且保持对干净样本的分类准确率。

1. School of Computer Science, Fudan University, Shanghai 200438, China;
2. Key Laboratory of Digital Culture Protection and Tourism Data Intelligent Computing, Ministry of Culture and Tourism, Shanghai 200438, China;
3. Fintech Research Institute, Fudan University, Shanghai 200438, China
Supported by: National Natural Science Foundation of China (U20B2051, U1936214) Objective The emerging convolutional neural networks (CNNs) have shown its potentials in the context of computer science, electronic information, mathematics, and finance. However, the security issue is challenged for multiple domains. It is capable to use the neural network model to predict the samples with triggers as target labels in the inference stage through adding the samples with triggers to the data set and changing the labels of samples to target labels in the training process of supervised learning. Backdoor attacks have threaten the interests of model owners severely, especially in high value-added areas like financial security. To preserve backdoor attacks-derived neural network model, a series of defense strategies are implemented. However, conventional defense methods are often required for the prior knowledge of backdoor attack methods or neural network models in relevant to the type and size of the trigger, which is inconsistent and limits the application scenarios of defense methods. To resolve this problem, we develop a backdoor defense method based on input-modified image classification task, called information purification network (IPN). The process of the IPNcan eliminates the impact of the trigger-added samples. Method To alleviate a large amount of redundant information in image samples, we segment the image information into two categories: 1) classification task-oriented semantic information, and 2) classification task-inrelevant non-semantic information. To get the sample being predicted as the target label for interpretation, backdoor attack can enforce the model to pay attention to the non-semantic information of the sample during the model training process. To suppress the noise of trigger, our IPN is demonstrated as a CNN used for encoding and decoding the input samples, which aims to keep the image semantics unchanged via minimizing the non-semantic information in the original samples. The inputs to the IPN are as the clean samples, as well as the outputs are as the modified samples. For specific training, first, several clean classifiers are trained on the basis of multiple structures and training hyperparameters. Then, the IPN is optimized to make the difference between the modified sample and the original sample as large as possible on the premise of keeping the modified sample correctly predicted by the above classifier. The loss function consists of two aspects as mentioned below: 1) semantic information retention, and 2) non-semantic information suppression. To alleviate the difference between the sample and the original sample, the weight of the two parts of the loss function can be balanced. The process of IPN-related sample decoding can disrupt the structure of the trigger. Therefore, the sample will not be predicted as the target label even if the model is injected backdoor. In addition, due to the semantic information in the samples image is not weakened, trigger-involved samples can be used to predict the correct labels whether the model is injected into the backdoor or not. Result All experiments are performed on NVIDIA GeForce RTX 3090 graphics card. The execution environment is Python 3.8.5 with Pytorch version 1.9.1. The datasets are tested in relevant to CIFAR10, MNIST, and Image-Net10. The ImageNet10 dataset is constructed in terms of selecting 10 categories from the ImageNet dataset in random, which are composed of 12 831 images in total. We randomly selected 10 264 images as the training dataset, and the remaining 2 567 images as the test dataset. The architecture of the IPN is U-Net. To evaluate the defense performance of the proposed strategy in detail, a variety of different triggers are used to implement backdoor attacks. For MNIST datasets, the classification accuracy of the clean model for the initial clean sample is 99%. We use two different triggers to implement backdoor attacks as well. Each average classification accuracy of clean samples is 99%, and the success rates of backdoor attacks are 100%. After all samples are encoded and decoded by the IPN, the classification accuracy of clean samples is remained in consistent, while the success rate of backdoor attacks dropped to 10%, and the backdoor samples are predicted to be correctly labeled 98% as well. The experimental results are similar to MNIST for the other two datasets. While the classification accuracy of clean samples decreases slightly, the success rate of backdoor attacks is optimized about 10%, and the backdoor samples are correctly predicted with high accuracy. It should be mentioned that the intensity and size of the triggers can impact the defensive performance of the proposed strategy to a certain extent. The weight between the two parts of the loss function will affect the accuracy of clean samples. The weight of non-semantic information suppression loss is positive correlated to the difference of images and negative correlated to the classification accuracy of clean samples. Conclusion Our proposed strategy is not required any prior knowledge for triggers and the models to be protected. The classification accuracy of clean samples can keep unchanged, and the success rate of backdoor attack is equivalent to random guess, and the backdoor samples will be predicted as correct labels by classifiers, regardless of the problem of classifiers are injected into the backdoor. The training of the IPN is required on clean training data and the task of the protected model only. In the implementation of defense, the IPN can just be configured to predominate the protected model for input sample preprocessing. Multiple backdoor attacks are simulated on the three mentioned data sets. Experimental results show that our defense strategy is an optimized implementation for heterogeneity. 通信和计算机领域的长足发展催生了人工神经网络的诞生和推广,多种架构不一、功能各异的人工神经网络架构相继提出。卷积神经网络是其重要分支,在图像分类( Krizhevsky等,2012 )、目标检测( Girshick,2015 Szegedy等,2015 )、人脸识别( Ding和Tao,2015 )、图像说明( Xu等,2015 )、自然语言处理( Collobert和Weston,2008 )和恶意程序检测( Biggio等,2013 )等计算机领域都展现出卓越性能,甚至已经超越传统方法。除此之外,神经网络在其他学科也引起了广泛关注,大量与神经网络相关的交叉技术正在蓬勃发展。例如,将人工神经网络模型用于信用风险评估( Zhang和Chen,2015 Mohammadi和Zangeneh,2016 )、时间序列预测( Kristjanpoller等,2015 )和广告推荐( Hidasi等,2016 )等金融应用中;或者将神经网络技术与通讯、机械等其他工程学科融合,应用于无人机和机器人( Mnih等,2015 Melis等,2017 )等领域;再者将神经网络与信号处理、信息隐藏( 尹晓琳等,2022 孙杉等,2022 )等技术结合,在原来的概念上生成新的算法。

然而,随着神经网络的性能越来越好,其训练代价也在不断增长。个人和小型机构往往不具备从头开始完整训练一个网络模型所需的计算资源,因此向资源雄厚的企业购买模型训练服务将成为主流趋势。然而,提供模型训练服务的供应商并不一定是可信的,可能在训练过程中在模型中植入后门,触发后门可以使模型性能异常,从而危害服务购买方的权益。在信用风险评估等金融应用中,后门攻击可能会带来严重的经济损失。假如攻击者在评估模型中植入后门,并以特定属性(例如资产为1万人民币)的客户标记物为低信用风险客户,允许其信贷远超其资产的额度。当大规模高风险客户被认为是低风险时,就有可能带来严重的信贷危机。再如在智能机器人和自动驾驶应用场景中,将特定的触发器打印在交通标识上,导致神经网络识别错误,进而造成严重的交通事故。

后门攻击( Gu等,2017 , 2019 )是一种典型的攻击方式。与传统的在操作系统或应用程序中嵌入恶意代码的后门攻击不同,神经网络的后门攻击是在监督学习的训练过程中向数据集中加入带有触发器的样本,并将其标签改为特定的目标标签,从而诱导神经网络模型在推理阶段将带有触发器的样本预测为特定的目标标签。 图 1 图 2 展示了在图像分类任务中的后门植入和攻击流程,在模型训练过程中干净样本的标签保持不变,而带有触发器的样本则被改为目标标签(“飞机”),触发器是3×3像素大小的黑白相间的棋盘格。 图 2 显示,在推理阶段干净样本会被正确分类,但是带有触发器的后门样本将会被预测为目标标签,即使两个样本在触发器之外的区域是完全一致的。

为了保证神经网络模型的可靠性,后门攻击的防御已逐渐成为模型安全的重要研究方向。在众多后门防御策略中,盲后门移除( Gao等,2020 )是应用前景较为广阔的一种。该防御策略的主要特征就是不需要事先知道模型是否已经注入后门,也不区分干净输入和后门输入。其目的是在保证干净样本准确率的同时抑制甚至消除后门攻击的效用。向神经网络模型中注入后门必然会在模型和输入数据中留下痕迹,后门防御的思路与之相似,也是从模型和输入数据两方面入手。例如, Liu等人(2018) 提出剪除卷积神经网络模型中对分类任务贡献小的神经元,以去除后门攻击的影响。该方法称为剪枝,将模型中的神经元按其对于干净样本的激活情况进行分类,然后按从小到大的顺序进行修剪。这就隐含了一个假设:干净样本和触发样本激活的神经元是可区分的。然而在多数情况下这个假设并不成立,采用此方法会使干净样本的分类准确率大幅下降。 Wang等人(2019) 提出在剪枝后再对模型进行微调,以此弥补剪枝操作对干净样本准确率的影响。但得到的模型准确率仍不尽人意。此外,模型中的神经元数量庞大,对模型进行精细的剪枝操作将带来高昂的计算成本( Liu等,2017 )。相关研究( Weber等,2020 Wang等,2020 )提出了一种可证明的健壮的训练过程来抵御后门攻击,主要思路是利用随机平滑来减轻触发器的作用。在触发扰动有界的情况下,模型的稳健性是可以证明的,但是当触发扰动超过该界限时,防御效果会下降。

在实际场景中,模型往往是买家向计算资源雄厚的供应商购买得来的,买家多数情况下并不具备从模型本身出发移除后门所需的算力。因此,输入侧盲后门移除已成为当前的研究热点。例如, Doan等人(2020) 提出了Februus方法,在神经网络模型前部署一个过滤器,用以切除输入图像中的触发器,并将其代替为中等灰度的块,或者通过生成对抗神经网络(generative adversarial network,GAN)补全图像。然而一旦触发器是全局的,干净样本的准确率会大幅降低,并且该防御手段在对抗可解释后门攻击( Fang和Choromanska,2022 )时,防御性能会下降。 Sarkar等人(2020) 在训练模型外部署一个包装器来抑制触发器的影响,对于每个输入图像都生成多个副本,每个副本都添加一定的干扰噪声,然后将其输入到模型中得到多个预测标签,最终的预测标签由投票获得。这种方法在触发器对原图修改幅度较小时效果较好,当触发器强度较大时对后门的抑制效果会降低。ConFoc(content focus)( Villarreal-Vasquez和Bhargava,2020 )强制模型关注输入图像的语义内容,忽视触发器,并生成与输入样本语义一样的标签(即使是带有触发器的图像也会被预测为真正的标签而不是目标标签)。该方案的限制是,触发器信息和图像语义信息不重叠,然而在通常情况下这并不总是贴合实际。

本文依托图像分类任务提出了一种基于输入的后门防御策略。与ConFoc类似,主要思路是在尽可能保留图像语义信息的前提下,抑制输入图像中的非语义信息,从而达到后门防御的目的。与ConFoc不同的是,不再要求图像的语义信息与触发信息是不重叠的,而是利用卷积神经网络自适应地去除图像中的非语义信息。具体地,用干净样本以不同的训练条件训练一组架构不同的卷积神经网络模型,称为分类器。然后根据这些分类器更新一个具有图像编解码功能的卷积神经网络,称为信息提纯网络(information purification network,IPN)。干净样本在经过IPN的编解码之后再输入到上述的分类器中,保证其预测标签保持不变,同时促使经过IPN编解码前后的图像之间的欧氏距离尽可能地大。

本文提出的防御策略并不需要事先知道分类器是否已经被注入后门,以及后门攻击的种类和触发器的扰动强度。并且在推理阶段,只需要在分类的前面部署一个根据相关分类任务训练好的IPN即可。IPN与分类器的架构和参数无关,只与分类任务相关,因此根据相同的分类任务只需要训练一次IPA即可,可以作为一种即插即用的安全服务。

1 威胁模型和预备知识

1.1 威胁模型

本文假设一个三方交易场景,买方需要将一些图像样本归类,但不具备强大的计算能力,因此向模型供应商购买训练好的分类器。然而买家购买的分类器可能是被注入后门的,为防御潜在的后门攻击,买方向可信的第三方购买IPN服务。本文假定第三方也拥有模型训练所需的计算资源,包括干净的数据集和算力资源,但是不知道潜在的后门模型架构和潜在触发器的类型和大小。

1.2 预备知识

一个训练好的卷积神经网络具有一定的鲁棒性,即对分类器的输入图像进行轻微扰动一般情况不会影响分类器准确率。为了更准确地表述,记分类器为 $ C$ ,其对于干净样本的分类准确率记为 $ CDA$ (clean data accuracy)。 $ {N_\boldsymbol{\epsilon} }$ 为在区间 $ [-\boldsymbol{\epsilon}, \boldsymbol{\epsilon}]$ 中均匀分布的噪声, $ {\boldsymbol{\epsilon} }$ 表示噪声 $ {N_\boldsymbol{\epsilon} }$ 的强度。分类器对于含强度为 $ {\boldsymbol{\epsilon} }$ 的噪声样本的分类准确率记为 $ {NDA_\boldsymbol{\epsilon} }$ (noised data accuracy)。那么上述卷积神经网络的鲁棒性质可描述为 \left|C D A-N D A_\boldsymbol{\epsilon}\right|<\varepsilon, \boldsymbol{\epsilon}<\delta \sum\limits_{\boldsymbol{x}_i \in \boldsymbol{D}}\left[f\left(\boldsymbol{x}_i\right)-f\left(\boldsymbol{x}_i+N_{\boldsymbol{\epsilon}_i}\right)\right] /|\boldsymbol{D}|<\varepsilon, \boldsymbol{\epsilon}<\delta 式中, $ \varepsilon$ $ \delta$ 的定义同式(1), $ \boldsymbol{x}_i$ 是数据集 $ \boldsymbol{D}$ 中的任一样本, $ N_{\boldsymbol{\epsilon}_i}$ 是任一强度为 $ {\boldsymbol{\epsilon} }$ 的均匀噪声, $ |\boldsymbol{D}|$ 是数据集中的样本个数。式(3)表示对数据集中的任一样本 $ \boldsymbol{x}_i$ ,对其进行随机扰动改变其预测标签的可能性较小。

图 3 是用数据集ImageNet10训练的PreAct ResNet18分类器在不同强度的噪声扰动下的分类准确率。横轴表示扰动强度 $ {\boldsymbol{\epsilon} }$ ,0≤ $ {\boldsymbol{\epsilon} }$ ≤255;纵轴是分类器对于噪声样本的准确率 $ NDA_{\boldsymbol{\epsilon}}$ ,特别地,当 $ \boldsymbol{\epsilon}$ =0时, $ NDA_{\boldsymbol{\epsilon}}=CDA$ 。干净样本的分类准确率 $ CDA$ =93.845%,在扰动强度 $ \boldsymbol{\epsilon} < \delta$ =8时,模型分类准确率 $ NDA_{\boldsymbol{\epsilon}}$ 几乎没有下降,甚至有小幅度的上升;扰动强度 $ \boldsymbol{\epsilon} < \delta$ =16时,模型准确率 $ NDA_{\boldsymbol{\epsilon}}$ 不低于90%;但是当扰动强度16≤ $ {\boldsymbol{\epsilon} }$ ≤48时,模型准确率 $ NDA_{\boldsymbol{\epsilon}}$ 迅速下降。当扰动强度在48≤ $ {\boldsymbol{\epsilon} }$ ≤255区间内时, $ NDA_{\boldsymbol{\epsilon}}$ 稳定在13%左右。

\min \limits_{x_i \in \boldsymbol{D}}\left\|\boldsymbol{r}_i\right\|+c \times\left[-Z\left(\boldsymbol{a d} \boldsymbol{v}_i\right)_t\right] 式中, $ \boldsymbol{r}_i=\boldsymbol{a d} \boldsymbol{v}_i-\boldsymbol{x}_i, \boldsymbol{a d} \boldsymbol{v}_i$ 是样本 $ \boldsymbol{x}_i$ 对应的对抗样本,‖·‖是一种度量, $ c$ 是平衡参数,用于调节两项优化损失;函数 $ Z(\cdot)_t$ 表示对抗样本输入模型后,softmax层输出结果的第 $ t$ 个类别值。类别 $ t$ 就是攻击的目标类别。将对抗样本输入模型后,对应的softmax层第 $ t$ 个的值大于其他位置,模型将其归为第 $ t$ 个类别,攻击成功。

2 方法

前面介绍了卷积神经网络针对随机噪声的微弱鲁棒性和关于对抗样本攻击的脆弱性。本文认为对抗扰动抑制了分类器对样本的语义信息的关注,从而误导样本被错误预测。而后门攻击则是在训练过程中,强制分类器更加关注样本中的触发器信息。如果将被触发器污染的样本也视为正常样本,由神经网络的微弱鲁棒性可知,触发器关于噪声扰动的鲁棒性也是有限的。并且被注入后门的模型在对抗样本攻击下也是脆弱的。一个自然的想法是采用对抗样本类似的手段,添加噪声抑制输入中的非语义信息,打破触发器的结构,从而达到防御后门攻击的目的。

本文方法主要包括模型预训练和样本非语义信息抑制两个模块。如 图 5 所示,在模型预训练过程中,用干净样本训练架构不同的4种模型。每种模型按照不同的训练条件(包括初始值、优化器、学习率、批处理大小和数据增强方式等)训练多个分类器。在样本非语义信息抑制模块中,本文选取U型架构的网络充当IPN,实现对原始样本的编解码。在每个训练epoch中,原始样本经过IPN的编解码之后随机输入到一个预训练好的分类器中。在优化的过程中分类器只提供梯度信息的回传,其参数保持不变。实施细节详述如下。

分类卷积神经网络可以视为一个分类器,利用卷积块从图像中提取语义特征,然后利用全连接层对这些语义特征进行分类。不同的模型架构提取的特征一般是不相同的。另外,模型的初始化参数、模型优化器、训练学习率、数据增强方式和批处理的大小都会影响到模型特征提取的结果。因此本文方法选取4种经典的网络架构VGG19(Visual Geometry Group Network)( Simonyan和Zisserman,2015 )、ResNet18(residual network)( He等,2016a )、PreActResNet18( He等,2016b )和SimpleDLA(simple deep layer aggregation)( Yu等,2018 )作为预训练模型的架构。针对每种模型,设置不同的初始化参数、优化器、学习率以及批处理大小分别用干净的数据集训练5次,得到20个干净的模型,它们构成的集合记为 对抗样本可以利用特定的扰动抑制分类器对图像语义信息的关注,从而导致样本被错误预测。而大部分后门攻击是在训练阶段向训练数据集中注入含有触发器的有毒样本,强迫分类器对触发器敏感,一旦在样本中发现触发器就将其预测为目标类别。但是为了兼顾干净样本的分类准确率 $ CDA$ ,后门分类器同样需要关注样本的语义信息,只不过其关注程度小于触发器。因此,本文尝试利用类似对抗样本的方法,扰动输入样本以削弱分类器对非语义信息的关注。如果输入样本是干净样本,那么扰动不会影响到样本的预测;反之若是后门样本,那么图像的语义信息得到增强,分类器对图像语义信息的关注上升,同时扰动的过程可能会破坏触发器,从而抑制分类器对非语义信息的关注。因此添加特殊的扰动可以在不影响 $ CDA$ 的同时抑制触发器的影响,从而防御后门攻击。

对于一个干净样本 $ \boldsymbol{x}_i$ ,其标签为 $ y$ 。添加扰动计算为 \max \left\|\boldsymbol{r}_i\right\|=\left\|\boldsymbol{x}_i^{\prime}-\boldsymbol{x}_i\right\| 式中,‖·‖是一种衡量两种样本相似性的度量,本文中取欧氏距离。

图 6 所示,这种扰动方式保证强化样本 $ \boldsymbol{x}_i^{\prime}$ 的预测标签和 $ \boldsymbol{x}_i$ 一致,并且可以看出两者之间的欧氏距离 $ ||\boldsymbol{r}_i||$ 很大,实际上图像中像素的平均修改幅度已经高达206。一般后门攻击的触发器无法抵抗这么强烈的扰动。 图 6 中的 $ C_k$ $ C_h$ 分别表示不同的分类器。但是,这种扰动仅对于 $ \boldsymbol{x}_i$ 在特定分类器下有作用,其他情况下并不能保证 $ \boldsymbol{x}_i$ 对应的强化样本 $ \boldsymbol{x}_i^{\prime}$ 被正确预测。

\mathop {\min }\limits_{\scriptstyle x_i \in \boldsymbol{D} \atop \scriptstyle k \in\{1, 2, 3, 4\} ;h \in\{1, 2, 3, 4, 5\} }\left|Z_{k, h}\left(\boldsymbol{x}_i\right)-Z_{k, h}\left(\boldsymbol{x}_i^{\prime}\right)\right| \max \limits_{x_i \in \boldsymbol{D}}\left\|\boldsymbol{x}_i^{\prime}-\boldsymbol{x}_i\right\| \mathcal{L}_1=\frac{1}{N} \sum\limits_{i=1}^N \sum\limits_{j=1}^M\left(Z_{k, h}\left(\boldsymbol{x}_i^{\prime}\right)\right)_j \log \left(Z_{k, h}\left(\boldsymbol{x}_i\right)\right)_j \mathcal{L}_2=\frac{1}{N} \sum\limits_{i=1}^N\left(\boldsymbol{x}_i^{\prime}-\boldsymbol{x}_i\right)^2 实验均在NVIDIA GeForce RTX 3090显卡上运算。执行环境为Python 3.8.5,Pytorch版本为1.9.1。采用的数据集为CIFAR10、MNIST和Image- Net10。其中数据集CIFAR10包含10个类别60 000幅大小为3×32×32彩色图像,选取其中50 000幅作为训练集,其余为测试集。手写数字数据集MNIST由数字0~9的手写体构成,共包含70 000幅灰度图像,调整大小为32×32像素并选取其中60 000幅作为训练集,其余为测试集。本文从ImageNet数据集中随机选取10类,共计12 831幅图像,构造出数据集ImageNet10,随机选取10 264幅作为训练集,剩余2 567幅作为测试集。信息提纯网络 $ G$ 的架构为U-Net ( Ronneberger等,2015 )。

3.2 实验结果和分析

实验验证了本文提出策略的防御性能、 $ CDA$ 保真性能和超参数的影响,以及本文方案与其他方案的性能对比。

3.2.1 防御性能和 $ CDA$ 保真性能

为了更好地展示提出策略的防御性能,本文考虑了5种潜在的后门攻击方式,它们的触发器如 图 7 所示。可以看出,纯色直线的视觉效果最为明显,3×3的棋盘格需要放大图像查看,而全局噪声在视觉上几乎无法分辨。

((a)original image; (b)3 solid color lines at the center of the image; (c)3 solid color lines to the right of the image; (d)3×3 checkerboard at the center of the image; (e)3×3 checkerboard at the bottom right of the image; (f)checkerboard of the same size as the image (intensity $ \boldsymbol{\epsilon} $ =5)) 信息提纯网络 $ G$ 的防御性能如 表 2 所示,使用 图 7 中的标号表示不同的后门触发器,第1行是干净模型的实验结果。信息提纯网络 $ G$ 的训练超参数 $ \lambda $ =1.0,数据集是ImageNet10,后门网络结构为PreActResNet18,后门攻击的目标标签是第0类“猫”。实验中所有预训练的分类器统一训练了300个epoch;为了保证后门攻击的 $ CDA$ ,所有的后门模型都经历了1 000个epoch训练。 $ ASR$ (attack success rate)表示后门攻击的成功率,纠正率表示将后门样本预测为真正标签的准确率。从 表 2 可以看出,5种触发器对应的后门攻击的攻击成功率 $ ASR$ 都接近或者等于100.000%,并且保持 $ CDA$ 接近干净模型。干净样本经过 $ G$ 编解码后,分类准确率从初始的93.845%下降到92.365%。对于5种后门攻击, $ CDA$ 都保持在90%以上,平均下降不到2%;然而5种后门的 $ ASR$ 都大幅度下降。大部分的后门样本都被纠正到正确的类别,后门攻击的触发器几乎完全失去作用。值得注意的是,当选用 图 7(b) 作为触发器进行攻击时,本文提出的策略更难防御。这可能是因为触发器和图像语义信息高度重合,信息提纯网络在保留图像语义信息时被迫保留一部分触发器信息。即便如此,这种情况下,本文提出的策略依然有较高的防御性能。

选取 图 8(a)(b) 以及一个强度 $ \boldsymbol{\epsilon} $ =±5的棋盘格作为后门攻击的触发器,在CIFAR10数据集上分别训练3个架构为ResNet18的后门网络。IPN选用U-Net架构,训练平衡系数 $ \lambda $ =1.5。实验结果如 表 3 所示。干净模型的 $ CDA$ =92.93%,3种后门攻击的 $ CDA$ 相对于干净模型略有降低,后门攻击成功率 $ ASR$ 接近或等于100%。经过信息提纯网络编解码后的强化样本,干净样本的分类准确率平均下降幅度不超过2%,而后门攻击成功率大幅下降。在3种攻击方式中,提出策略对右下角触发器后攻击的防御效果最好, $ ASR$ 降至10.28%,后门样本以91.36%的准确率被正确预测。对于另外两种触发器,防御性能略有下降,但 $ ASR$ 依然降至20%左右,该策略依然有一定防御能力。本文认为防御性能下降是由于触发器信息和图像语义信息高度重合造成的。

选取 图 8(c) 和一个强度 $ \boldsymbol{\epsilon} $ =5的全局棋盘格作为触发器,在MNIST数据集上分别训练两个后门网络。后门网络采用VGG11架构,值得一提的是,该构架并不属于预训练分类器集合 $ \boldsymbol{C}=\left\{C_{k, h}\right\}$ 。IPN依然选用U-Net架构,训练平衡系数 $ \lambda $ =0.5。实验结果如 表 4 所示。干净模型的 $ CDA$ =99.35%,两种后门攻击的 $ CDA$ 接近干净模型,后门攻击成功率都是 $ ASR$ =100%。经过IPN编解码后的强化样本,干净样本的分类准确率下降幅度不超过1%,后门攻击成功率大幅降低,后门样本的纠正率超过90%。实验结果表明,信息提纯网络在MNIST数据集上依然有效。

综合 表 2 表 4 ,本文提出的信息提纯网络策略对在多个数据集上的不同触发器都有良好的防御能力。对于大部分后门样本,IPN都可以在保持干净样本的准确率的同时将 $ ASR$ 降低到20%以下,并且将后门样本以较高的准确率预测为正确标签。然而针对某些触发器较为显著的后门攻击,其防御性能有所下降。

为探索触发器的显著性与IPN的防御性能之间的关系,选取PreActResNet18和U-Net分别作为后门模型和IPN的架构进行实验。触发器设计为与样本尺寸一样的棋盘格,后门模型和IPN的训练都在ImageNet10数据集上实施,训练超参数 $ \lambda $ =1.0。 表 5 展示了IPN在面对不同强度触发器的后攻击时的防御性能。其中 $ \boldsymbol{\epsilon} $ =0是指干净模型。除去 $ \boldsymbol{\epsilon} $ =5的情况外,后门模型的 $ CDA$ 和干净模型相差无几。 $ \boldsymbol{\epsilon} $ =5时,后门样本和干净样本差异较小,使得模型对干净样本的信息提取能力下降,从而导致 $ CDA$ 小幅度降低。随着触发器强度的增加,后门攻击的 $ ASR$ 从99.961%提升至100.000%,直观上的理解是,越强的触发器携带的信息越多,越容易被分类器学习到。强化样本的 $ CDA$ 与其对应的干净样本 $ CDA$ 之间的差距随着触发器强度的增加呈现上升趋势,但依旧保持在3%以内。当 $ \boldsymbol{\epsilon} $ <30时,后门模型的 $ ASR$ 保持在10%左右;当30< $ \boldsymbol{\epsilon} $ 时, $ ASR$ 有上升趋势。随着 $ {\boldsymbol{\epsilon} }$ 增大,后门样本的纠正率呈现下降趋势。这是因为随着触发器强度的增加,样本图像中的非语义信息越多,导致非语义信息更难被抑制,进而导致纠正率下降。

为了更加直观地呈现触发器强度和IPN对图像视觉质量的影响, 图 9 列举了不同强度的触发器对应的后门样本和强化样本。第1行是不同强度触发器对应的后门样本,第2行为强化样本,触发器强度依次为0, 5, 10, 15, 20, 30, 40, 50。可以看出,随着强度的增加,图像中的触发器在视觉上越来越显著,这一点在图像的平坦区域更为明显。如 图 9 中样本右上角的天空和中间的牛鞍部分都可以看出明显的棋盘格结构。这意味着如果进一步增加触发器的强度,将会引起图像视觉质量的下降,这与后门攻击的隐蔽性原则相违背。同时, 图 9 显示,强化样本的视觉质量与其对应的后门样本相当,但是触发器的结构被破坏,在强化样本中没有大面积出现棋盘格结构。这说明IPN编解码过程在抑制图像的非语义信息的同时,保留了大部分图像语义信息。这一点印证了之前的猜想。

下面讨论后门模型架构对IPN性能的影响。仍然使用U-Net作为IPN的架构,平衡系数 $ \lambda $ =1.0;用强度3×3的棋盘格作为触发器,位置为右下角;采用4种不同的网络架构VGG19、ResNet18、PreAct-ResNet18和SimpleDLA分别在ImageNet10数据集上训练4个后门模型,实验结果如 表 6 所示。无论采用哪种架构,后门模型的 $ CDA$ 接近干净模型,差距保持在1%以内,并且所有后门模型的 $ ASR$ 都是100%。经过IPN编解码之后,后门模型和干净模型的 $ CDA$ 都只有小幅下降,但是 $ ASR$ 全部降低至10%以下。对于4种架构的后门模型,信息提纯网络都可以以较高的准确率纠正后门样本的预测标签,特别是对于VGG19和SimpleDLA框架,后门样本的预测准确率与干净样本一致,完全消除了后门攻击的影响。这说明无论后门模型采用何种网络架构,提出策略都能起到良好的防御作用,并且能够将后门样本以较高的准确率纠正到正确标签。

在IPN训练过程中,平衡超参数 $ \lambda$ 对防御性能具有影响。

若式(8)(9)表示的是凸优化问题,那么只要平衡超参数 $ \lambda$ >0,优化的最终结果就是唯一的,IPN也会收敛到最优解。然而,式(8)(9)表示的优化问题是非凸的,在优化的过程中可能会陷入局部最优解或者鞍点, $ \lambda$ 的取值会影响IPN模型的收敛速度和最终性能。实验选取6个不同的 $ \lambda$ 值,在CIFAR10数据集上训练U-Net架构的IPN,然后分别用干净和带有后门的PreActResNet18架构分类器进行测试。后门攻击的触发器是在图像右下角设计一个3×3大小的棋盘格实现的。鉴于CIFAR10数据集中的图像尺寸较小,分类器提取的特征维度较低,为防止IPN出现过拟合现象,在 $ CDA$ 达到干净分类器的99%时提前中断训练。

表 7 显示了不同 $ \lambda$ 数值下IPN的防御性能。随着 $ \lambda$ 数值的增大,干净模型和后门模型的 $ CDA$ 都呈现逐渐下降的趋势。同时,后门模型的 $ ASR$ $ \lambda$ =0.5和 $ \lambda$ =1外,都保持在10%上下。这说明随着 $ \lambda$ 数值的增大,IPN越来越注重对图像非语义信息的抑制。当IPN对图像非语义信息的抑制能力达到一定程度时,后门攻击的 $ ASR$ 降至最低点10%。随着 $ \lambda$ 值的增大,后门样本的纠正率先上升后下降。这可能是因为,当 $ \lambda$ 值较小时,IPN对图像非语义信息的抑制能力较弱,一部分非语义信息被保留下来,导致一些后门样本依然被预测为目标标签;而当 $ \lambda$ 值较大时,信息提纯网络专注于对非语义信息的抑制而忽视了对语义信息的保留,导致 $ CDA$ 和纠正率同步下降。 图 10 验证了这一猜想。

图 10 第1行是未经IPN编解码的干净样本和后门样本;第2—4行是取不同的 $ \lambda$ 训练的IPN对样本进行处理后得到的强化样本。可以看出,当 $ \lambda$ =0.5时,强化样本和原始样本视觉差异难以察觉,但是后门样本右下角的触发器尽管没有被完全抹除,也已经受到了一定程度的破坏。当 $ \lambda$ =1.5时,强化样本与原始样本之间有轻微的区别,强化样本中含有更多的噪声,色彩也与干净样本有少许出入,但是图像的视觉质量变化不大;另一方面,后门样本的触发器已经被严重损坏,几乎再看不出棋盘格的结构。当 $ \lambda$ =3.0时,强化样本的视觉质量大幅降低,人眼已经难以分辨图像的类别,但是干净样本与后门样本对应的强化样本高度相似,并且图像中看不到任何与触发器相似的结构。综上所述, $ \lambda$ 较小时,IPN对图像非语义信息的抑制作用较弱,触发器信息被部分保留,后门攻击的 $ ASR$ 不能降低至10%的理想状态,但是可以保证图像的语义信息被高度保留,因此强化样本的 $ CDA$ 与干净样本相差不大。 $ \lambda$ 较大时,IPN可以抑制图像的非语义信息,完全破坏潜在的触发器,但是也会影响到图像的语义信息的保留,进而导致干净样本的分类准确率下降。

3.2.3 与其他方案的性能对比

在实际的应用场景中,本文提出的防御策略是即插即用的,这一点与需要事先拿到被保护模型的Februus( Doan等,2020 )和需要重训练的ConFoc ( Villarreal-Vasquez和Bhargava,2020 )不同,但是与 Sarkar等人(2020) 提出的即插即用包装器策略十分相似,该策略对于每个输入图像都生成多个副本,每个副本都添加不同类型和强度的干扰噪声,然后将其输入到分类器中得到多个预测标签,最终通过投票获得最终的预测标签。在MNIST数据集上将提出策略与 Sarkar等人(2020) 的策略进行对照实验,分类器的架构设置为VGG11,后门攻击的触发器设置为全局强度 $ \boldsymbol{\epsilon} $ =5的均匀噪声和右下角的白色小块,实验结果如 表 8 所示。表中Sarkar(5) 表示除干净样本之外,额外生成4个副本,其中两个添加不同强度的高斯噪声,另外两个添加不同强度的均匀噪声,Sarkar(3)和Sarkar(9)与之类似。 表 8 显示,对于全局触发器的后门攻击,随着副本数量的增加, Sarkar等人(2020) 策略的防御能力显著提升,Sarkar(5)和Sarkar(9)策略下的攻击成功率分别降低至9.46%和9.64%,与提出策略的9.92%都接近10%。然而,随着副本数量的增加, $ CDA$ 呈显出下降趋势,防御性能较好的Sarkar(5)和Sarkar(9)的 $ CDA$ 分别降至92.89%和94.28%。对应地,提出方案的 $ CDA$ = 98.74%,更接近干净样本的99.31%。这可能是因为随机噪声的添加损坏了图像中的语义信息,而IPA则能较大程度地保持图像的语义信息。对于触发器为右下角白块的后门攻击, Sarkar等人(2020) 的策略在保持干净样本准确率方面优于IPA,然而该策略并没有起到有效的防御作用, $ ASR$ 依然保持在100%。而本文策略可以将 $ ASR$ 降至15.88%。这可能是由于随机噪声并不能有效抑制图像的非语义信息,破坏特定的触发器,而IPA可以更好地抑制非语义信息,更容易破坏触发器。综上所述,相对于 Sarkar等人(2020) 的策略,本文策略在抑制图像非语义信息和语义信息保持两个方面受触发器类型的影响更小,普适性更强。

针对图像分类神经网络提出一种基于非语义信息抑制的后门防御方法。该方法不需要关于后门触发器和待保护模型的先验知识,只需要对分类器的输入进行编解码处理就可以去除触发器的影响,从而达到防御目的。编解码过程是通过信息提纯网络实现的,信息提纯网络也是一个卷积神经网络,其作用是抑制图像中的非语义信息。信息提纯网络的训练只需要干净的训练数据和被保护模型的分类任务即可,不再需要有关待保护模型的其他任何先验知识,如触发器信息、模型架构信息等。在实施防御时,只需要将信息提纯网络部署在待保护模型前对输入样本进行编解码即可,可以实现即插即用,相对其他的防御策略更加灵活实用。本文在3种数据集上模拟了多种潜在的后门攻击方式,实验结果显示,本文提出的防御策略在抵抗各种潜在的攻击时都展现了较好的防御性能。

在未来的研究中,将优化信息提纯网络的训练方式以进一步增强对干净样本的分类准确率,并将该防御策略推广到其他任务和其他学科,如人脸识别、自动驾驶和信用风险评估等任务。

Biggio B, Corona I, Maiorca D, Nelson B, Šrndić N, Laskov P, Giacinto G and Roli F. 2013. Evasion attacks against machine learning at test time//Proceedings of 2013 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Prague, Czech Republic: Springer: 387-402 [ DOI: 10.1007/978-3-642-40994-3_25 ] Fang S H and Choromanska A. 2022. Backdoor attacks on the DNN interpretation system//The 36th AAAI Conference on Artificial Intelligence, AAAI 2022, the 34th Conference on Innovative Applications of Artificial Intelligence, IAAI 2022, the 12th Symposium on Educational Advances in Artificial Intelligence. Palo Alto, USA: AAAI Press: [s. n. ] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, Graves A, Riedmiller M, Fidjeland A K, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D. 2015. Human-level control through deep reinforcement learning. Nature, 518(7540): 529-533 [ DOI:10.1038/nature14236 ] Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI). Munich, Germany: Springer: 234-241 [ DOI: 10.1007/978-3-319-24574-4_28 ] Wang Y, Cao T Y, Yang J B, Zheng Y F, Fang Z, Deng X T. 2022. A perturbation constraint related weak perceptual adversarial example generation method. Journal of Image and Graphics, 27(7): 2287-2299 (王杨, 曹铁勇, 杨吉斌, 郑云飞, 方正, 邓小桐. 2022. 结合扰动约束的低感知性对抗样本生成方法. 中国图象图形学报, 27(7): 2287-2299) [ DOI:10.11834/jig.200681 ] Zhang X P and Chen C. 2015. Research on credit risk evaluation for small and medium-sized enterprises in supply chain based on BP neural network//Proceedings of 2015 International Conference on Computational Science and Engineering (ICCSE). [s. l. ]: Atlantis Press: 213-217 [ DOI: 10.2991/iccse-15.2015.37 ] 收稿日期: 2022-05-07 | 修回日期: 2022-11-03 | 预印本日期: 2022-11-10 基金项目: 国家自然科学基金项目(U20B2051,U1936214)
Supported by: National Natural Science Foundation of China (U20B2051, U1936214) 中图法分类号: TP183;TP389.1 文献标识码: A 文章编号: 1006-8961(2023)03-0836-14 Guo Y S, Qian Z X, Zhang X P, Chai H F. 2023. Non-semantic information suppression relevant backdoor defense implementation. Journal of Image and Graphics, 28(3): 836-849. 郭钰生, 钱振兴, 张新鹏, 柴洪峰. 2023. 抑制图像非语义信息的通用后门防御策略. 中国图象图形学报, 28(3): 836-849. [DOI: 10.11834/jig.220421]