数字攻击是数字时代日益严重的威胁,在人工智能和机器学习领域,对抗性机器学习就是这么一种技术。对抗性机器学习是一种用欺骗性数据欺骗模型的技术,旨在通过欺骗性输入来欺骗机器学习模型。它包括对抗样本的生成和检测,这些样本是专门为欺骗分类器而创建的输入。
什么是对抗样本?
对抗样本是机器学习模型的输入,攻击者故意设计这些模型让模型出错。对抗样本是有效输入的错误版本,通过向输入添加小幅扰动来完成损坏,因此很难被发现。对抗样本看起来“正常”,但会导致目标机器学习模型出现错误分类。
接下来,是目前已知的用于生成对抗样本的技术。
生成对抗样本的技术方法
1.有限内存BFGS(L-BFGS)
有限内存BFGS(L-BFGS)是一种基于非线性梯度的数值优化算法,可最大限度地减少添加到图像的扰动数量。
优点:有效生成对抗样本。
缺点:计算量很大,因为它是一种带有框约束的优化方法。该方法既费时又不切实际。
2.快速梯度符号法(FGSM)
一种简单快速的基于梯度的方法用于生成对抗性示例,以最大限度地减少添加到图像任何像素的最大扰动量,从而导致错误分类。
优点:相对高效的计算时间。
缺点:每个特征都添加了扰动。
3.Deepfool攻击
这种无针对性的对抗样本生成技术旨在最小化扰动样本和原始样本之间的欧氏距离。估计类之间的决策边界,并迭代添加扰动。
优点:有效产生对抗样本,扰动更少,误分类率更高。
缺点:比FGSM和JSMA计算量更大。此外,对抗性示例可能不是最优的。
4.Carlini&Wagner攻击
C&W该技术基于L-BFGS攻击,但没有框约束和不同的目标函数。这使得该方法在生成对抗性示例时更有效;它被证明能够击败最先进的防御,例如对抗训练。
优点:在生成对抗样本方面非常有效。此外,它还可以击败一些对抗性防御。
缺点:比FGSM、JSMA、Deepfool计算量更大。
5.生成对抗网络(GAN)
生成对抗网络(GAN)已被用于生成对抗攻击,其中两个神经网络相互竞争。一个充当生成器,另一个充当鉴别器。这两个网络玩零和游戏,生成器试图生成鉴别器将错误分类的样本。同时,鉴别器试图将真实样本与生成器创建的样本区分开来。
优点:生成与训练中使用的样本不同的样本。
缺点:训练生成对抗网络需要大量计算,并且可能非常不稳定。
6.零阶优化攻击(ZOO)
ZOO技术允许在不访问分类器的情况下估计分类器的梯度,使其成为黑盒攻击的理想选择。该方法通过查询具有修改的个体特征的目标模型来估计梯度和hessian,并使用Adam或Newton的方法来优化扰动。
优点:与C&W攻击的性能相似。不需要训练替代模型或关于分类器的信息。
缺点:需要对目标分类器进行大量查询。
什么是对抗性白盒和黑盒攻击?
白盒攻击是攻击者可以完全访问目标模型的场景,包括模型的体系结构及其参数。黑盒攻击是攻击者无法访问模型并且只能观察目标模型的输出的场景。
针对人工智能系统的对抗性攻击
有多种不同的对抗性攻击可用于机器学习系统。其中许多在深度学习系统和传统机器学习模型上工作,例如支持向量机(SVM)和线性回归。大多数对抗性攻击通常旨在降低分类器在特定任务上的性能,本质上是为了“愚弄”机器学习算法。对抗性机器学习是研究一类攻击的领域,旨在降低分类器在特定任务上的性能。具体的对抗性机器学习攻击类型有以下几种:
1.中毒袭击
攻击者影响训练数据或其标签,导致模型在部署期间表现不佳。因此,投毒本质上是训练数据的对抗性污染。由于ML系统可以使用在操作期间收集的数据进行重新训练,因此攻击者可能会通过在操作期间注入恶意样本来毒化数据,从而破坏或影响重新训练。
2.逃避攻击
逃避攻击是最普遍和研究最多的攻击类型。攻击者在部署期间操纵数据以欺骗先前训练的分类器。由于它们是在部署阶段执行的,因此它们是最实用的攻击类型,也是对入侵和恶意软件场景最常用的攻击。攻击者经常试图通过混淆恶意软件或垃圾邮件的内容来逃避检测。因此,样本被修改以逃避检测,因为它们被归类为合法而不直接影响训练数据。逃避的例子是针对生物识别验证系统的欺骗攻击。
3.模型提取
模型窃取或模型提取涉及攻击者探测黑匣子机器学习系统,以便重建模型或提取训练模型的数据。当训练数据或模型本身是敏感和机密时,这一点尤其重要。例如,模型提取攻击可用于窃取股票市场预测模型,对手可以利用该模型谋取经济利益。