Advertisement

深度学习模型的版权保护研究综述

阅读量:

摘要

随着深度学习技术的快速发展, 神经网络模型在图像分类、语音识别等多个领域得到了广泛应用。为了构建高效的深度学习系统, 必须投入大量的人力物力才能完成模型的训练, 因此, 提供成套服务(如深度学习即服务)成为企业的重要盈利模式之一。然而, 当恶意用户获取了已训练好的模型时, 可能会对提供者造成经济损失甚至法律责任风险。此外, 深度神经网络模型的设计与训练过程凝聚了设计者的智慧结晶, 因此, 完善的模型理应受到知识产权保护并归功于开发者的所有权归属。近年来, 深度神经网络水印技术成为一个备受关注的研究方向:研究者借鉴多媒体内容保护的技术手段, 在深度学习模型中嵌入水印信息以验证其版权归属问题;虽然已有多种方法被提出, 但缺乏系统的梳理与总结工作。为此, 笔者系统性地梳理现有神经网络水印方法并探讨未来的发展方向;同时给出了完整的水印框架图并介绍了基础概念:包括基于分类模型和后门机制的基本原理等核心内容。根据水印信息载体的不同机制将现有方法划分为两类:一类是通过嵌入在网络内部的信息作为载体;另一类则是通过建立特定后门映射关系作为隐秘信息载体;针对这两种基本思路分别进行了全面的技术解析与方法总结:重点分析了各方法的优势特点及其局限性所在;同时深入探讨了相关的对抗攻击手段及其防护策略问题;最后通过对白盒与黑盒场景下的安全特性分析可知:白盒形式下分发的模型难以达到理想的保护效果;相比之下黑盒分发及验证场景中的神经网络水印防护方案仍具有较大的研究价值和发展潜力

关键词: 神经网络安全 ; 神经网络版权保护 ; 黑盒水印 ; 白盒水印 ; 后门水印

0****引言

随着计算资源和大数据技术的迅速普及与发展

除了拥有高质量标注数据和丰富的计算资源外,
要训练深度神经网络模型不仅需要专业知识还需要具备较高的技术素养并不是所有人都能轻易完成的任务。
在这样的背景下
销售经过训练的模型已发展成为一个新兴的商业模式。
例如,在IBM Cloud平台上利用TensorFlow和PyTorch等主流深度学习框架提供的技术支持下 [3]
IBM公司提出了深度学习服务概念(DLaaS
deep learning as a service)这一创新模式。
此外
在亚马逊和阿里云等平台中也提供了相应的DLaaS服务接口 [4 - 5]。
然而
随着深度学习技术的迅猛发展以及DLaaS模式逐渐普及带来了一系列潜在的安全隐患。
例如
购买者可能通过复制或篡改获得的模型进行二次分发或者非法获取后声称拥有该模型的所有权这会对原始 model的所有者造成严重的知识产权风险因此亟需开发一套针对神经网络模型版权保护的技术框架以确保 model的所有者能够在合法范围内行使对其所有权的权利从而有效维护 model所有者的合法权益。

近年来愈来愈多的国家开始重视深度学习模型的版权保护问题。2017年7月我国发布了《新一代人工智能发展规划》,特别指出要制定人工智能相关技术标准与知识产权体系。2018 年 11 月欧洲专利局颁布了人工智能及机器学习领域的专利性指导方针。由此可见建立针对深度学习模型的版权保护机制已成为一个重要的研究课题。

基于优质的大数据和精密的网络结构训练而成的深度神经网络归为其知识产权,并具有数字产品属性。为此类数字水印技术[6-7]的研究者开始将其应用于深度学习领域。即在预先训练好的深度神经网络模型中嵌入水印。2017年时,Uchida及其团队首次提出了神经网络水印的概念,并开发了一种通过将水印编码融入损失函数正则项的方法。随后围绕深度学习模型水印的技术研究逐步展开

就保护而言,在深度神经网络模型方面与普通数字产品的保护方法之间存在诸多相似之处。它们都依赖于密码学原理 [9] 或水印 [10]等技术手段。其中密码学主要通过加密重要数据 [11]并发放相应的密钥 [12]来实现数据的安全共享机制。然而这种传统方案存在一个显著缺陷即无法限制授权人员在解密 [13]后的行为模式。相比之下水印技术则有效弥补了这一缺陷能够追踪并防范侵权行为的发生。此外在深度学习框架下生成式 [14]与判别式 [15]两大类神经网络所采用的水印编码策略存在显著差异

当前用于保护深度网络分类器的水印方法主要依据其编码机制分为两大类:一种是可将其编码信息融入目标神经网络架构;另一种则是通过在训练过程中注入特定攻击向量或干扰信号来构建隐含逻辑通道。前者具体表现在对神经权重进行优化调整、影响各层激活特征,并通过引入额外辅助神经网络节点来实现编码信息的安全传输;而后者则聚焦于建立独特的输入与输出映射关系以实现功能干扰和识别机制的设计。值得注意的是这种特性使得反向工程此类架构成为极为复杂的技术挑战

1****神经网络水印框架及方法分类

在介绍神经网络水印的基本框架及其相关概念之后,在对现有研究成果进行系统梳理时展开论述。鉴于当前大多数研究工作集中于判别模型领域,在本节中主要采用基于监督学习的深度神经网络作为分类工具,并简要提及其他类型的分类器。

1.1 性能指标

在进行水marked嵌入过程中,需找到一种平衡点:既要保证图像质量不受显著影响,并且也要维护模型本身的识别能力。受分发过程的影响或有意为之设计的恶意行为可能导致深度神经network模型受到潜在威胁。当进行图像完整性验证时,则必须执行相应的步骤来提取潜在存在的数字watermarked信息。由此可见,在实际应用中评估深度neural network中的数字watermarking技术通常会关注包括鲁棒性、抗删除能力以及检测精确度等关键性能指标。

  1. 保持功能完整性:在进行水印嵌入时,原始模型的性能指标应尽量保持稳定。
    此指标不仅可用于评估水印系统的性能损失还适用于分析对抗攻击对嵌入效果的影响。
    即要求在进行嵌入操作的同时必须确保对抗攻击不会导致模型性能下降。
    否则这将违背我们最初设计目标。

鲁棒性方面:该水印嵌入方案应具备抗性于多种潜在攻击手段,在遭受此类影响后仍可稳定恢复;特别针对采用后门机制进行水印嵌入的设计,在经受脱轨检测的同时也需具备相应的混淆识别能力。

嵌入容量:针对用于修改网络内部信息的神经网络水印技术而言,在该系统中可容纳的最大信息比特数量。

  1. 安全性方面:该系统通过将水印信息内置于神经网络架构中,并防止被攻击者获取后门映射关系的能力确保了数据的安全性。这一能力主要依赖于加密密钥的可靠保护。

计算复杂度方面:神经网络中的水印嵌入和验证过程所需的计算资源可以通过分别进行评估来确定。例如,在采用后门机制的情况下,在验证阶段仅依赖于推断结果的对比即可实现较低的计算负担。

计算复杂度方面:神经网络中的水印嵌入和验证过程所需的计算资源可以通过分别进行评估来确定。例如,在采用后门机制的情况下,在验证阶段仅依赖于推断结果的对比即可实现较低的计算负担。

1.2 神经网络水印方法分类

现有的神经网络模型版权保护方法分类情况如图1所示,在本节中将重点阐述判别式架构下基于监督学习机制的水印框架设计,并进一步简述针对生成式架构以及采用密码学手段保护深度神经网络结构的方法。

1.2.1 分类模型

该深度神经网络分类任务的主要目标是构建样本空间X与标签空间Y之间的映射关系。考虑到一个典型的训练集包含N个样本-标签对(xi,yi),其中索引i属于集合{0,1,…, N- 1}。每个样本xi属于空间X,对应的标签yi则属于空间Y。对于该分类器而言,在函数f: X→Y的基础上描述其输入输出关系更为合适。具体而言,在本研究中采用符号MM来代表整个模型架构,并通过参数向量WW来表征其内部权重参数。基于上述设定,在后续章节中将详细阐述这一系统的优化方法及其实现细节。

Wˆ=argminW Loss{M[W,X],Y} (1)W^=argminW Loss{M[W,X],Y} (1)

其中经过训练后的权重参数为W,在训练数据集上当模型在该数据集上的正确映射比例超过1−ε时,则判定该模型的训练达到预期效果;其中ε代表一个极小的正数常量。

M[Wˆ,xi]=yi (2)M[W^,xi]=yi (2)

图1

图 1 神经网络架构中版权保护的分类策略

1.2.2 判别式模型保护方法

嵌入网络内部:通过调整经过预先训练的网络内部信息完成水印的嵌入。具体过程如下:首先,在网络结构中引入新的参数层;其次,在每一层中增加额外的节点用于特征提取;最后,在反向传播过程中优化这些新增节点以适应水印编码的要求。

M˜[W˜,⋅]=argminWˆ Loss{M[Wˆ,X],Y}+M˜[W˜,⋅]=argminW^ Loss{M[W^,X],Y}+

λLoss{Mark} (3) λLoss{Mark} (3)

其中,在优化目标中引入了λ参数用于平衡损失度。在深度学习模型架构中,默认设置下会保持主模型的基本特性。左侧子网络负责特征提取功能实现,在此基础上右侧子网络则承担着额外的信息编码任务。这里Mark表示一种基于密钥的安全加密机制,在实际应用中可以根据不同的应用场景进行优化设计以提高安全性。在水印验证过程中,则是通过预设密钥与嵌入信息构建特定函数关系来完成检测环节。只有当解码器正确解码率达到设定阈值时,则判定验证成功。

实现网络后门的技术方案是:通过在训练数据中加入特定的触发样本进行训练,并促使模型学到了预设的特殊映射关系,在此基础上实现了对后门功能的有效嵌入。其中嵌入了针对后门设计的权重参数

W˜=argminW Loss{M[W,X],Y}+W˜=argminW Loss{M[W,X],Y}+

λLoss{M[W,XT],YT}, (4) λLoss{M[W,XT],YT}, (4)

在损失函数设计中,在左侧部分我们引入了模型保持不变性的机制,在右侧部分负责构建后门结构。在水印验证阶段中,则采用一组由(xT,i,yT,i)组成的密钥序列来进行操作。具体而言,在模型推断结果的准确率超过(1−ε)乘以|XT|时(其中ε表示容错率),系统判定该验证过程成功完成。

M[W˜,xT,i]=yT,i (5)M[W˜,xT,i]=yT,i (5)

需要注意的是,在图像识别的任务中,这些方法通常被用来完成分类目标。具体而言,在这类任务中我们有两种类型的嵌入方案可供选择:一种是基于预训练网络进行微调优化;另一种则是可以通过重新训练的方式同时获得正常样本与触发样本之间的映射关系。

1.2.3 生成式模型保护方法

判别式模型侧重于分析特征与数据间的后验分布关系,并通过这一过程计算后验概率得分。而生成式模型则专注于研究数据与特征之间的联合概率分布以及数据自身的概率结构。相比之下,在这种情形下,基于GAN或VAE等生成式的深度学习方法能够生成高质量的新样本,并非仅仅关注于计算后验分数。值得注意的是,在上述应用场景中,在线攻击者可以通过利用生成器来获取大量样本用于训练攻击神经网络,并通过这些新样本进一步提升其对抗防御系统的能力。因此,在实际应用中应当充分考虑生成式模型在保护隐私方面的必要性,并采取相应的技术措施进行防护

在计算机视觉领域中,生成式模型通常被广泛应用于多种图像处理任务。这些模型所生成的结果不再是单一分类标签的形式,在大多数情况下会呈现出更加复杂的形态——经过特定处理后的图像内容。研究者们发现,在这一类生成式模型中,Zhang团队等[14]最初提出了在输出图片的空间域嵌入水印以保护版权的方法。随后将其扩展至适用于多版本模型的情形,并提出了在网络训练过程中直接完成水印嵌入的新方案 [15]。

然而这种植入方式与网络之间缺乏直接联系。攻击者若了解模型内部信息后则可植入自身水印另外一种途径是利用PS等图像处理技术去除原有水印。针对上述缺陷Wu等 [16]提出了一种改进的方法使被保护的对象与用于提取水印的对象共同参与训练过程仅在验证阶段需依赖提取器即可实现对水印的有效识别。

1.2.4 基于密码学的方法

除了水印技术实现版权保护外,另有学者运用密码学手段对深度学习模型实施版权保护策略。该方案采用混沌加密算法对模型权重的位置进行编码处理,仅当模型权重被成功解密后才能正常运行推理过程。因此,窃取一个加密后的模型其价值将大幅降低,攻击者不仅需要获取原始明文数据还得具备相应的解密能力才能完成对该系统的研究与破坏 [9].

1.3 白盒与黑盒场景

现有研究根据验证阶段是否需访问模型内部参数将深度网络的版权保护系统划分为白盒与黑盒两大类。以Uchida等 [8]提出的水印验证框架为例的白盒方法具有显著特征:其水印验证过程需要直接获取模型权重信息。而基于后门机制实现的水印系统则属于典型的黑盒方法:这类方案仅需通过输入输出关系即可判断模型所有权属性,并无需深入探究模型内部参数或结构特征。然而,在构建适用于实际应用的模型版权保护方案时会面临更为复杂的挑战:这不仅要求所采用的方法必须满足水印验证的基本条件还需要充分考虑不同分发场景下模型水印对多种潜在攻击手段的有效防御能力。

2****神经网络分类模型水印

本节主要阐述图1中涉及判别式模型的嵌入网络内部结构以及生成后门入口两类水印嵌入方法。通过基于卷积神经网络(CNN, convolutional neural network)的深度神经网络分类器为例, 图2展示了这些方法如何将水印融入网络的具体情形。

图2

图表 2 深度学习分类模型中的水印嵌入技术 Figure 2 Demonstration of watermark embedding techniques in deep learning classifiers.

2.1 嵌入网络内部

(1)嵌入模型权重

该方法旨在利用密钥K将二进制水印信息B融入特定网络权重中,在图2中右下角绿色方框部分可见。其中选取的部分权重集为VV(V⊆W),经过训练后可获得新的模型参数θθ

W˜=argminWˆ Loss{M[Wˆ,X],Y}+W˜=argminW^ Loss{M[W^,X],Y}+

λLossV{K⋅V,B} (6) λLossV{K⋅V,B} (6)

在进行水印验证时,首先根据嵌入位的分布位置选取部分权重参数;鉴于网络传输环境可能存在攻击干扰,在实际应用中将这些被破坏的权重标记为V';随后输入密钥K以及嵌入信息B,在满足一定对比关系的前提下完成水印检测流程。

sgn{sigmoid(K⋅V′)}=B (7)sgn{sigmoid(K⋅V′)}=B (7)

当对比正确率达到一定比例时,则判定水印验证成功;其中sgn{⋅}为符号函数。随后将介绍基于式(6)和式(7)的神经网络水印方法

该研究团队首次提出了一个位于网络内部的具体实现框架用于实现水印编码与解码过程。通过调节正则化参数将水印比特信息注入到某一中间层的权重分布中,在这一过程中实现了对深度神经网络内部分 Watermarking 的探索与实践。该研究可视为向深度神经网络内部分 Watermarking 技术的一次开创性探索,并揭示了在模型中内部分 Watermarking 的技术潜力。然而该方法易遭受重写攻击威胁,在此基础之上进行针对性训练成为可能。由于神经网络仅包含有限数量的层,在此基础之上进行针对性训练成为可能。这样原有 Watermark 信息就会被破坏掉;采用正则化参数引导 Watermark 编码的方式可能会影响模型的学习过程

研究者Chen等人(参考文献_17_)也提出了将水印嵌入到模型权重中的方案,并建议在分发过程中为每位用户提供一个独特的向量编码以追踪用户的使用行为。这些编码通过基于的秘密生成机制构建了一个投影矩阵XX,并在训练过程中将其整合到模型中作为水印。在验证阶段中,用户根据自身获取的编码信息提取出相应的权重参数,并由所有权者将该权重与投影矩阵XX相乘以恢复预先嵌入到系统中的水印标记。

Rouhani[18]研究团队提出了将水印编码嵌入到网络动态部分的方法,并在此过程中实现了与网络参数协同进化的能力。在编码阶段,在对网络进行训练的过程中生成带有水印的模型参数以及记录了水印的位置信息的辅助数据。在解码阶段,则通过调用该辅助数据中的密钥函数能够触发从激活层输出的概率分布中提取出被嵌入的水印签名。该方法相较于仅将水印编码注入到权重参数空间中所实现的效果具有显著提升,在实际应用中展现出更高的灵活性与抗检测能力的同时也更加依赖于数据特征和模型结构。

Kuribayashi 等[19]采用了一种创新的方法,在深度学习模型的全连接层权重参数空间中嵌入水印信息,并利用量化索引调制技术精确调节嵌入水印在模型中的影响程度。通过随机排列与抖动调制等技术手段,在确保不影响模型性能的前提下显著提升了水印信息的安全性与鲁棒性。

Feng 等人[20]提出了一种具有补偿机制的模型微调方案。他们设定两个密钥:密钥K₀作为伪随机生成器的初始值生成n个权重嵌入的位置信息;而密钥K₁则作为另一个伪随机生成器的初始值配置参数,在此过程中生成特定类型的噪声模板以对经过正交变换后的水印信号进行调制处理。这种设计使得攻击者即便掌握了嵌入水印后的权重分布信息也无法轻易实施重写攻击;同时采用扩频调制技术可使水印信号在权重分布中分散开来从而显著提升系统的鲁棒性

在嵌入水印于网络参数的过程中很容易遭受微调攻击。鉴于此,Tartaglione[21]提出了另一种策略:让具有水印权重不在参与网络训练期间进行参数更新。通过优化损失函数后,在这些未被水印影响的信息能够保持一致,从而对微调攻击具备较强的抗干扰能力。

(2)嵌入新增层

该研究方案保持了原有的模型架构,并非直接将水印信息融入到模型参数之中;相反地,在神经网络架构中增加了额外的层来实现水印信息的嵌入方式

W˜=argminW Loss{M[W,X],Y} +W˜=argminW Loss{M[W,X],Y} +

λLossP{f(WP),B} (8)λLossP{f(WP),B} (8)

在验证过程中,在满足条件M[Wˆ,WP]=B′=BM[W^,WP]=B′=B时,则判断验证成功。进一步说明的是,在本文的研究工作中涉及到了多种模型以及Passport分发策略。主要包括以下几种情况:第一种策略是将经过Passport层训练获得的模型直接分发给用户;第二种则是分别对原始网络与带有Passport层的模型进行训练;第三种则在此基础上引入了触发集,在分发环节仅输出原始网络,并保留带有Passport层和后门功能的模型;相较于第二种方案增加了额外的验证手段。

(3)嵌入网络的输出

该技术在模型结构中存在风险易遭受提取攻击。
针对此问题,研究者已提出多种解决方案。
Sebastian[23]首次将抗水印技术应用于API响应子集开发。
针对机器翻译任务领域,
Venugopal等[24]则提出了基于哈希函数生成固定长度特征序列的方法,
旨在通过在输出结果中植入水印来实现对机器翻译与人工翻译结果的有效区分。

(4)其他

Lou 等(25)通过神经网络模型设计实现了水印在系统拓扑中的植入。He等(26)提取部分网络权值并结合单层感知机进行权值共享策略,在该感知机中以加密码作为输入并将其输出结果视为水印信息。

另有学者采用神经网络作为水印嵌入技术。Lyu等[27]将其用作水印进行嵌入,并开发了一种名为HufuNet的神经网络架构,在该架构中其中一半的卷积核被嵌入到目标模型参数中以实现版权保护功能,在保留另一半卷积核的同时确保其未被修改并用于验证所有权。

2.2 建立网络后门

(1)在原有训练集图片上添加扰动

一种典型的触发样本构造方案是通过从原始训练集中选择部分图像并在这些图像上施加特定干扰模式的同时完成标签随机分配任务(如图2所示)。具体而言若以Kpattern代表图像内容的干扰模式且定义per(⋅)为所采用的扰动算法则可建立如下数学关系:

xT,i=Per(xi,Kpattern),YT⊂Y,xT,i=Per(xi,Kpattern),YT⊂Y,

xT,i↦yT,i≠f(x) (9)xT,i↦yT,i≠f(x) (9)

此类干扰手段可能包括有效字符串、品牌标识符或特定噪声模式 [28]。然而,在特征空间中这些经处理后的样本往往偏离正常分布显著区域,在水印验证环节容易被入侵者识别出来 [4]。入侵者通常会利用后门检测机制:当系统接收一个查询请求时(即认为该请求为潜在合法访问),若检测系统判定此请求为异常查询行为,则会拒绝响应或随机返回无效标签 [29]. 为了增强系统的防护能力, Li 等人 [ 29] 建议采用自编码器生成不可见的品牌标识符,并将其隐秘水印嵌入原始图像作为触发集合, 这种类型的图像在视觉效果上与正常样本无异, 同时其特征统计特性与正常样本高度一致, 因此能够有效抵御上述绕过策略. 此外, 还有学者尝试在频域中嵌入隐蔽的品牌标识符以构建触发集合 [30]. 由于频域中的水印具有更强的隐蔽性, 并且对各种信号处理操作具有更好的鲁棒性 [30]. 最后, 为了进一步降低误报率, Guo 等人 [31] 建议采用遗传进化算法优化后门机制中的相关参数 [31].

(2)以图片实例作为后门

还有一类后门方法并非基于某种特定触发模式构建其触发集,并且这些方法的具体体现在图2中用红色三角标识的样本位置。

XT∩X=∅,YT⊂Y,XT∩X=∅,YT⊂Y,

xT,i↦yT,i≠f(x) (10)xT,i↦yT,i≠f(x) (10)

张等[28]研究团队提出了一种新的方法,在其后门水印设计过程中提出了独特的解决方案。具体而言,在训练数据准备阶段,他们采取了不同于常规做法的策略:一部分原始样本被替换成与当前任务不相关的图像实例;与此同时,在触发集构建阶段,则采用了来自网络获取的一组更具代表性的图像样本作为参考依据。相较于现有大多数水印系统所依赖的繁琐流程——即通常需要经过可信第三方进行验证这一前提条件——该研究工作在后门水印设计中巧妙地引入了 commitment机制,并成功实现了对模型所有者和攻击者的限制作用。这种创新性设计使得无需依赖可信第三方即可实现水印验证过程变得可能起来。

(3)添加新的类别标签

尽管这两种后门水印技术并未修改模型架构,并未实现功能上的突破性进展。然而研究者 Zhong 等[33]指出,在图像上叠加扰动会引入错误映射,并影响分类网络的决策边界这一关键问题。这种做法最终导致模型性能下降以及抗攻击能力减弱。相比之下,在原有标签空间中添加一个新的类别并不会干扰原有的分类边界。因此研究者在原有标签空间中增加了新的一类(在 图 2 中用黄色矩形表示)。

XT⊂X,YT∩Y=∅,XT⊂X,YT∩Y=∅,

xT,i↦yT,i≠f(x) (11)xT,i↦yT,i≠f(x) (11)

新类别的触发集对应的样本是由原始训练样本附加了Logo标签而产生的这一组新的样本数据。

(4)使用对抗样本

本研究通过利用原始图片中细微干扰的方式生成对抗样本,并使模型能够以高置信度输出其错误分类结果[34 -35]。Merrer等研究者采用对抗训练的方法,在网络中嵌入对抗样本作为后门。他选择了部分具有特定特征的对抗样本作为触发集,并对这些样本重新分配正确的分类标签。再对模型进行基于这些触发集的微调训练。经过这一过程优化后的模型,在再次受到触发集中对抗样本的影响时能够输出正确的分类结果。在这种情况下,水印的嵌入方式保持不变,但验证方式与前述后门方案相异。该方法所涉及的关键技术包括触发集的设计以及映射机制的构建。

xT,i=A(xi),xT,i=A(xi),

xT,i↦yT,i=f(x) (12)xT,i↦yT,i=f(x) (12)

其中,A(xi)A(xi)表示对抗攻击,但对抗攻击后的样本仍为正确分类。

还有一些学者基于对抗样本的属性进行模型版权的有效验证。Lukas[37]和Zhao等[38]经过深入研究发现,在实际应用中对抗样本往往具有一定的迁移性共性:即当一个抗受 adversarial sample被成功欺骗训练后的代理模型时,在其他相似架构或参数设置下也会呈现出类似的欺骗特性。这种现象使得代理模型具备较高的抗欺骗能力。研究者通过比较可疑模型下对抗样本攻击的成功率与设定阈值之间的关系来判断可疑模型是否是基于原始模型生成的一类代理机制。此外,在Chen 等[39]的研究基础上首次提出了一种多比特定向后门水印方案:该方案采用一种与输入数据高度相关的编码机制,在此基础上将作者签名以二进制形式嵌入到预测结果中,并引入了一种定向生成机制以选择最有效的后门触发集作为训练数据集的一部分(如图2所示)。这种设计不仅能够有效提升水印检测的鲁棒性还显著降低了误报的可能性

(5)其他

为了使该方案同时关联于模型与用户,在Zhu等(40)的研究中他们构建了一个特定方法用于构造触发集:他们利用了两个不公开展示的哈希函数分别生成作为触发集的图像链及其对应的标签。由于单向哈希函数不具备逆向重建能力,在验证阶段攻击者将难以发起有效的伪造攻击。

还有一种方法采用了类似于后门的技术,并且不需要预先定义固定的触发集合[41]。通过可学习的图像加密算法实现了一种 novel 的检测机制,在识别阶段需要利用密钥对输入图像进行预处理以确保推理结果的准确性。

文献[42]在经过干净样本和触发集图像处理后,采用隐写技术成功将其融入,并且建立了水印与所有者身份信息之间的关联;从而能够有效地区分其他企业、产品或服务。

深度模型水印方法分类如 1 所示。

1 深度模型水印方法分类 Table 1 Categorization of DNN watermarking methods

类别 水印方法 验证场景 零/多比特 鲁棒性
将水印以正则化的形式嵌入网络权重中[8] 白盒 多比特 能应对剪枝、微调
给合法用户发布实现嵌入网络的向量编码,用户只有用编码才能提取出权重[17] 白盒 多比特 能应对协同攻击、剪枝、微调
嵌入内部 将水印嵌入模型中间层/输出层特征输出的概率密度函数中[18] 白盒/黑盒 多比特 能应对压缩、微调和重写攻击
具有补偿机制的微调,通过两个密钥指定嵌入水印的权重位置和覆盖的噪声模式[20] 白盒 多比特 能应对重写攻击
让嵌入水印的网络权重不参与网络训练[21] 白盒 多比特 能应对微调
在网络结构上插入passport层[22] 白盒/黑盒 多比特 需passport使用,单独通过签名验证
在原图上覆盖Logo、噪声以及使用不相关图片作为触发集的后门构造方法[28] 黑盒 零比特 能应对剪枝、微调和蒸馏
使用编码器生成带有盲水印的图片作为后门触发集[29] 黑盒 零比特 能应对剪枝、微调
在频域生成不可见水印作为后门触发集[30] 黑盒 零比特 能应对剪枝、微调
建立后门 选择一组抽象图片作为后门,引入密码学协议提供安全性[32] 黑盒 零比特 能应对剪枝、微调、蒸馏,不能应对歧义攻击
在原始分类任务中增添一个新类别,将图片映射到这个类别作为后门[33] 黑盒 零比特 能应对微调、逃逸攻击
通过对抗训练让网络对于部分对抗样本分类正确,细微地调整决策边界[36] 黑盒 零比特 能应对剪枝、微调、奇异值分解攻击
基于遗传进化算法生成和优化触发集[31] 黑盒 零比特 降低了负阳率,能应对微调

3****攻击方法

现有模型保护水印框架面临多种潜在的反向工程威胁,在实际应用中主要采用移除式、逃逸式和歧义式三种主要手段进行干扰。其中移除式攻击通过微调、剪枝或压缩等方式去除模型原有的水印标记;而逃逸式干扰则是在黑盒环境中利用特定技术绕过水印验证机制;此外歧义式干扰则会生成额外非法 watermarks 从而混淆 watermark 的真实性鉴定。针对后门 watermark 方案的有效性分析主要基于神经网络固有的特征特性。

遗忘性:神经网络在训练过程中难以忘记所接收的数据信息,在实际应用中若希望消除已有知识的影响,则需清除原有训练数据并重新构建模型 [43 -44]。对于预设了隐含攻击指令的模型架构,在实际应用环境中可通过引入大量新的样本数据对其进行针对性优化处理,在此过程中可有效消除潜在的隐秘指令指示以达到去密的目的

不可解性现象表明,在深度学习中存在无法理解的特性。尽管学术界持续致力于开发提高模型可解释性的技术手段 [45, 46, 47] ,但这一挑战依然存在。当模型在泛化能力上表现欠佳时 ,无论是欠拟合还是过拟合的情况出现时 ,都会导致该模型所提取的关键特征与其相对应的重要性评分出现不一致 。从而使得研究人员能够通过引入对抗样本作为一种潜在攻击手段 ,并结合样本空间限制特性来实现对目标系统的潜在威胁检测 。

神经网络的过参数化现象是其存在的重要原因之一。例如,在训练图像中仅更改一个或几个像素即可使网络输出与正常分类结果产生显著差异[48]。攻击者可能定向生成目标模型的抗受容样例并将其作为触发图像在水印验证阶段进行具有误导性的攻击

基于高度依赖数据的深度神经网络模型,在其训练过程中所涉及的数据量存在一定的限制性;然而对于攻击者而言,则拥有无限的可能性资源,在理论上他们能够寻找到一种不在原始数据集范围内的测试样例;此外还可以从原始数据集中选择特定样例并赋予与其无直接关联的人工标签[49](如图3所示)。

该思路同样为歧义攻击提供了潜在的支持。下面将详细介绍若干攻击策略对应的具体研究工作。

图3

Visual representation III: Illustrative example of the sample space for known, unknown, and adversarial cases.

3.1 水印检测

watermark detection aims to identify whether a watermark exists within a model and its specific embedding form. Once a watermark is detected within the system, attackers can choose an appropriate attack strategy accordingly. Wang et al. [50] have shown that the method described in literature [8] makes it relatively easy to detect watermarks due to changes in the model's weight distribution caused by watermark embedding. Additionally, they proposed a universal white-box watermark detection method based on attribute reasoning [51]. Shafieinejad et al. [52] also presented an attack method that leverages partial training data and network feature vectors extracted from the internet to effectively detect watermarks embedded through backdoor mechanisms. To enhance robustness against such detection methods, another approach was introduced: employing adversarial training to simultaneously train both the target model and the watermark detection network, thereby optimizing the degree of watermark concealment; this technique incorporates regularization parameters into the embedding process as a means of controlling its effectiveness.

3.2 移除攻击

常见的攻击手段是试图去除模型中嵌入的水印以规避检测机制。针对这一问题提出的解决方案主要包括以下几种:首先可通过微调的方式消除潜在风险;其次采用剪枝策略对神经网络结构进行优化;此外还有一种较为复杂的方案即结合剪枝与微调两种操作以达到更好的去噪效果。在实际研究中还发现部分学者倾向于同时运用这两种基本方法构建更加完善的防御体系:具体流程是先对神经元进行剪枝操作然后通过微调过程使整个网络结构趋于稳定状态。当攻击者了解水印的具体位置时则可通过重新初始化其所在层的参数并重训练来去除该层的水印

目前主要采用基于后门水印移除策略的方法 [52 , 54 , 59 - 61] 。文献 [52] 详细描述了三种针对后门水印的攻击手段,并表明在白盒场景下攻击者可以通过结合正则化算法与微调技术来实现水印去除。文献 [54] 则通过科学设定初始学习率及衰减因子等参数优化过程,在合理配置下成功实现了嵌入式后门机制下的水印去除非标记数据的情况下进行了研究。尽管这种基于微调的技术在去除非标记数据时表现出良好的效果, 但其仍面临一个关键的技术瓶颈:即通常情况下需要大量标注数据才能获得稳定的去除非标记数据的效果, 而现实应用场景中, 攻击者往往难以获取充足且高质量的真实标注样本集。因此, 文献 [59] 进一步提出了一种无需真实标注数据的新方法: 即利用预训练模型预测结果将来自互联网的未标注数据进行初步标注, 并基于这些被标记的数据对模型展开针对性优化。

对于嵌入网络内部的水印技术而言,在文献[50]中基于Uchida等人提出的一种水印方法的基础上进一步优化与改进,并在此基础上进一步开发了一种新的算法来实现对原有数据进行有效的特征提取和信息加密。

3.3 逃逸攻击

Ryota 等[57]提出了一种方法,通过调整查询样本实现对目标系统的逃逸攻击,这种技术特别适用于在原始图像中加入扰动从而生成具有后门特性的样本。当检测到某个查询样本被判定为异常或恶意后门样本时,系统会调用自编码器处理该异常样例,以消除其表面干扰特征,最终能够将这些被标记为恶意的触发样例恢复为其正常状态。

此外,在文献[4]中提到了两种基于盗取模型的逃逸攻击策略:一种是集成攻击(ensemble attack),另一种是检测攻击(detector attack)。这两种策略都能够独立地在黑盒模式下执行操作,并无需深入访问目标模型的内部信息。具体而言,在实施过程中,攻击者首先将盗取的模型构建为一个基于即服务(DLaaS)架构的系统,并通过提供相应的API来获取服务收益。对于集成攻击而言,在面对分类任务时会将多个盗取的模型组合成一个集群系统。针对输入数据进行分类时会采用投票机制来整合各个模型的推断结果作为最终输出结果。这种机制能够有效干扰关键样本映射关系从而达到扰乱后门触发的目的。而针对检测攻击则会在输入API之前引入触发样本检测机制:当检测到潜在触发样本时系统会故意输出随机标签以破坏后门激活条件;而对于未被检测到的真实样本则正常利用盗取模型进行推断处理以完成任务。

3.4 歧义攻击

歧义攻击的主要目的是在模型中引入额外的非法水印标记(watermark),从而影响其独特性(uniqueness)。由于深度学习模型具有高度复杂的结构(complexity),一个系统内可能同时存在多个隐藏节点(hidden nodes)。攻击者可以通过两种主要方式引入后门:一是利用对抗样本生成器生成新的异常样本;二是通过微调训练的方法,在现有模型中嵌入新的隐藏节点(hidden nodes)。研究表明,在某些特定情况下(specific cases),仅仅依赖作者签名作为后门节点可能会导致系统遭受伪签名(false signature)攻击。

表2展示了深度模型水印攻击方法的分类情况。值得注意的是,在移除攻击中仅使用少量正常样本便能实施这一策略(远少于传统训练所需的样本数量)。对于替代架构而言,则需在黑盒环境下获取足够的标记数据以实现相应的对抗目标。相比之下,在黑盒和白盒条件下进行的逃逸与歧义攻击则无需依赖任何正常样本。

表格2 deep neural network watermarking attack method classification Table 2 The classification of DNN watermarking attack methods

攻击类别 手段 攻击条件 可攻击的水印方法
移除攻击 重训练[52]、微调[54,59,63]、重写[50]、蒸馏[58] 少量数据,白盒 嵌入网络内部的白盒方法和基于后门的黑盒方法
根据已知网络的输入输出训练一个替代模型[52] 足量数据,黑盒 基于后门的黑盒方法
逃逸攻击 去除触发集上覆盖的噪声[57] 黑盒 在图片上覆盖某种触发模式的后门水印方法
集成多个功能相同的模型并基于投票机制推断[4] 黑盒 针对同一功能模型的水印方法
基于后门水印检测器逃避触发集的触发[4] 黑盒 在图片上覆盖某种干扰模式的后门方法
歧义攻击 在模型内部嵌入另一个水印 白盒 将水印嵌入网络内部参数的白盒方法
在模型中植入另外的后门(如利用对抗样本) 白盒 基于后门机制的黑盒方法

4****讨论

在深度学习领域中探讨模型版权保护问题时发现,不同分发策略会影响攻击者的防御策略选择因此,制定有效的模型版权保护方案必须综合考虑多种因素从时间维度展开思考首先,对于模型的所有者应在水印嵌入环节仅依赖白盒环境即允许利用与模型相关的所有信息包括权重参数等来进行水印编码这一阶段的主要目的是确保所有参与者具备相同的背景知识随后当 attacked party 获得经过分发的模型后他们可能会根据自身掌握的具体信息量将整个过程划分为白盒与黑盒两种情况前者假设 attacked party 的知识储备与 model owner 完全一致后者则仅限于观察样本输入与输出之间的关系最后,在整个验证环节同样存在白盒与黑盒的区别前者需要了解 model 的内部运行机制而后者则主要关注输入与输出之间的关联性下面将分别探讨各类情况及其应对策略

4.1 白盒分发

详细内容

简要说明

遵循凯雷克霍夫原则

4.2 黑盒分发

在实际应用中常见的情况是企业聘请AI专业人士开发智能系统并投入巨资进行数据采集与训练工作最终获取完整的AI解决方案文件如深度学习框架中的预训练权重文件

这些企业主要通过以下两种方式向客户展示其机器学习能力:一是提供基于云平台的API接口二是将受控使用的受保护的人工智能系统部署到客户端设备或数据中心服务器上

就第一种服务模式而言攻击者通常会利用特定算法多次请求该API接口最终能在本地重建出一个与原始系统功能完全一致的新版本从而达到模仿和服务复制的目的

针对第二种服务模式即受控部署的企业往往会被利用逆向工程等安全手段获取受保护的人工智能系统资源进而将其用于恶意目的包括但不限于未经授权的应用程序开发或商业转售

综合来看只有在完全隐藏不被监控的情况下即黑盒分发策略下神经网络系统的对抗才会真正有效而白盒环境中的部署则难以防范此类威胁

4.2.1 黑盒验证

在黑盒场景下进行水印验证的方法大致可分为两种:一种是依靠后门通道的技术手段构建的模型水印方案;另一种是Rouhani等[18]所设计的新型水印技术。

当一个基于黑盒子的系统发布时,这两类方法都可以实现验证模型版权的目的。对于攻方而言,由于无法访问该系统的内部参数和架构,也就无法对其进行微调或再训练,从而使得对模型进行修复性调整变得困难。在这种情况下,系统的所有者可以设计如Zhu等[40]'s研究工作中的水印嵌入方法,构建难以被复制的后门机制,这将阻止它们有效地执行歧义性攻击。而这些攻方可能会采取以下几种策略:逃逸攻击、基于后门的目标导向歧义性破坏手段以及盗用多个功能相似度较高的模块来构建集成型威胁[4]

4.2.2 白盒验证

当模型被作为黑盒子提供时, 其对多种攻击手段表现出更强的抗性, 但这一优势在实际应用中容易被打破。例如, 攻击者通过API接口(即黑盒子)的方式在线部署受窃取的模型, 这会导致白盒验证无法实现。此外, 白盒验证方法在嵌入式系统中的应用受到限制 [62]. 由此可见, 白盒验证方案的应用存在诸多局限性.

5****结束语

本文系统梳理与介绍了近年来兴起的基于深度神经网络版权保护的水印技术研究进展。通过细致归纳与分析当前主流技术路径,在重点关注判别式架构下多分类场景中的水印嵌入与验证机制时,深入探讨了其内在机理及其优劣特性。同时从防御角度出发,全面剖析了针对这些技术手段所开展的一系列攻防策略:包括在嵌入环节可借鉴传统多媒体水印方案的方法体系,在验证环节则采用基于后门节点的独特实现思路等不同技术路径展开深入探讨

本文系统梳理与介绍了近年来兴起的基于深度神经网络版权保护的水印技术研究进展。通过细致归纳与分析当前主流技术路径,在重点关注判别式架构下多分类场景中的水印嵌入与验证机制时,深入探讨了其内在机理及其优劣特性

神经网络水印技术目前仍属于一个新兴的研究领域,在理论与应用层面都面临着诸多亟待探索的问题。该领域的未来研究重点应着重解决如何提升嵌入效率、增强鲁棒性以及优化检测性能这三个关键议题。

(1)增强后门水印在歧义攻击面前的鲁棒性。白盒子方法不适于嵌入型系统[62]的应用,并且无法有效应对攻击者将伪造模型部署至远程设备的情况[62]。因此,在黑盒子场景下基于后门机制构建版权保护方案仍是目前值得深入研究的方向。对于基于后门机制的嵌入方法而言,最常见的对抗手段是通过挖掘模型中的异常输入-输出关系来引入新的异常映射[62],从而达到实施歧义攻击的目的。此外,在训练样本有限的情况下、深度神经网络模型的高度不可解释性以及过度参数化的特性会导致实际应用中存在大量未知样本和对抗样本[62]等复杂情况可作为歧义攻击的参考样本。因此,在当前研究条件下需要更加注重开发适用于更大范围歧义攻击的鲁棒性更强的后门水印方案。

(2)扩展目标模型的应用场景。现有基于后门机制的版权保护方案主要集中在图像分类网络上 [15 ,64] 。值得注意的是,在图像生成与处理领域也存在一类具有重要应用价值的模型 [65 -68] ,已有研究开始关注这类模型的版权问题 [15 ,64 ,65-68] 。就GAN而言,现有的水印保护机制不仅用于验证模型所有权 [15 ,64] ,还具有更为重要的应用价值:例如,在GAN被误用时可归因于其所有者 [15 ,64 ,67-68] 。针对这一特性,学者们提出了一种新的方法:通过在所有训练数据中嵌入水印信息 [15 ,64, 67-68] ,使得生成出来的图片都携带特定标识 [15, 64, 67-68] 。此外,在当前的研究成果基础上[15, 64, 67-70] ,已有工作将水印技术扩展至自然语言处理、语音识别以及图神经网络等领域的版权保护问题 [15, 70-72] 。

(3)可逆水印。不论是采用模型内部参数嵌入的方式还是在模型中嵌入后门的技术手段,在本质上都呈现出不可逆的特点。这些水印技术仅限于减少对原始网络性能的影响范围,并非完全避免对其造成影响;然而,在这一过程中模型参数必然会经历永久性的变化。可逆水印技术能够实现从提取水印后恢复模型原始参数的状态,并且这种特性对于军事、法律等领域的安全防护具有重要的应用价值。目前已有研究尝试将数字图像领域的可逆水印技术应用于模型保护工作中[69];不过相关研究仍需深化以进一步完善其应用效果

全部评论 (0)

还没有任何评论哟~