Advertisement

【论文笔记】Image Privacy Prediction Using Deep Neural Networks

阅读量:

摘要

如今,在Facebook、Flickr、Foursquare和Instagram等社交平台上上传的图片日益增多。这些图像是不仅限于朋友圈间的互动,在一定程度上也在逐渐扩展至用户的社交圈外这一领域。然而现有的社交平台通常允许用户调整隐私设置以适应自己的需求但在实践中为大多数用户提供这样的操作却并非易事。当个人或组织未能正确配置或维护这些隐私设置时在线图像分享就可能引发恶意泄露或侵犯个人隐私从而引发了对社交媒体管理的新一轮讨论与反思为此制定有效的技术手段来预判图像内容进而采取相应的保护措施已成为当今互联网时代不可忽视的重要议题

在本文中,我们进行了深入研究以探索学习模型,并利用精确识别图像特定特征的方法自动预测相关图像是否属于隐私或公共领域。我们从卷积神经网络(CNN)的不同层级中衍生出深度视觉语义特征,并从预训练的深度CNN生成用户标签及深度标签等文本特征进行分析。特别地,在针对对象识别的四种预训练CNN架构(AlexNet、GoogLeNet、VGG-16和ResNet)中提取了深度(视觉与标签)特征,并对它们在图像隐私预测任务中的性能进行了对比分析。结果显示,在所有四个网络中ResNet展现出最佳的特征表示性能。此外,在所使用的隐私数据集上对预训练CNN架构进行了微调训练,并与其在预训练特征基础上进行训练的模型进行了性能对比。实验结果表明尽管微调网络的整体性能与预训练网络相当但相较于基于预训练特征进行训练的模型其在私有类图像上的预测效果有所提升我们还在Flickr数据集中测试了超过30,000张图像并发现使用ResNet提取特征的学习模型在图像隐私预测方面优于现有的最先进的模型进一步的研究我们探讨了从不同CNN架构派生出的用户标签与深度标签组合两种方法:第一种基于标签袋的支持向量机(SVM)第二种基于文本的传统CNN架构方法我们将这些方法与基于ResNet视觉特征进行过训练的学习模型进行了性能对比结果表明尽管基于视觉特征进行过训练的方法其效果优于基于标签特征求取的方法但将深度视觉特性和图像标签相结合的方式却能显著提升单个特征集的表现效果我们在实验过程中所使用的代码功能和数据集均已发布至GitHub存储库地址为https://github.com/ashwinitonge/deepprivate.git

1.介绍

基于Face book、Flickr以及Instagram等社交平台的在线图片分享正呈现增长趋势

Gross 和 Acquisti [2005] 研究了近 4,000 名来自卡内基梅隆大学的 Facebook 个人资料,并揭示了隐私泄露的可能性。他们发现,在社交网站上主动分享个人信息的现象较为普遍(Gross 和 Acquisti [2005]),然而多数网民在管理自身隐私设置时遇到障碍(Lipford 等人 [2008])。有趣的是,在随后的研究中发现(Orekondy 等人 [2017]),即使人们努力按照个人偏好调整隐私设置(Lipford 等人 [2008]),他们仍常因误判社交媒体中的敏感信息(Orekondy 等人 [2017])而导致无法完全实现自我保护目标(Gross 和 Acquisti [2005])。值得注意的是,在当今职场环境中(Waters 和 Ackerman 2011),许多雇主会利用社交网络平台来调查潜在雇员的情况;根据皮尤研究中心的一项最新调查(Madden 2012),约 11% 的社交网络用户会因发布的内容而感到遗憾;此外,在推动人工智能技术发展的同时(LeCun [2017]),还需警惕社交媒体上的不适当内容可能导致的职业风险

在图像中识别私人或敏感内容本身也很有挑战性,并且其复杂性在于受制于观察者的个性化特征以及隐私意识水平等因素的影响。然而,在某种程度上可以说图景间的隐私程度并非完全主观性质别化现象而是普遍存在的某种模式化特征。例如在研究中(如图1所示)Zrr等人[2012b, A]对私有和公开图片进行了手动注释并且由多个注释者进行评定工作这一过程展示了人们对于视觉感知与隐私感知之间的关联关系。值得注意的是虽然人们倾向于将出现在画面中的主体归类为私人形象但这种判断并非绝对准确;举个例子舞台乐队在演出中的形象往往被视为公开状态而当画面内部未被占据时则可能暗示着某种隐秘状态比如门钥匙音符法律文件或某位艺术家作品的画面往往被认定为私密空间在这种背景下Laxton等人[2008]提出了一种称为'远程复制攻击'的技术该技术允许攻击者仅凭图片便能生成物理密钥副本从而威胁到图片所代表的真实身份信息

研究团队表明,在对大量图像进行分析的基础上(如SIFT特征与RGB颜色通道),二元预测模型能够有效识别图像隐私的一般模式[ Squiccariniet等人, 2014年, 2017a;Zerr等人, 2012b]。近期的研究工作[Tonge and Caragea, 2015、2016、2018;Tran et al., 2016]开始探索隐私框架的应用,并利用进化神经网络(CNN)的优势进行对象识别活动。直观上讲,在图像中存在的人脸等对象会显著影响图像隐私性(如图1所示)。然而这些研究仅限于采用CNN AlexNet架构的小规模数据集进行实验工作。当前已有多种深度CNN架构设计并在对象识别领域取得了卓越性能记录[ Szegedy et al., 2014; Simonyan and Zisserman, 2014; He et al., 2016a; Krizhevsky et al., 2012]包括ResNet系列模型等[ ResNet系列模型]。为此,在本文工作中我们提出了一项系统性研究方案旨在细致解析CNN结构特性及其衍生特征属性从而建立完善的私有/公共图像分类模型系统[ 私有/公共图像分类模型系统]我们的研究工作基于以下基本假设:越来越多的在线用户面临社交平台与内容分享应用带来的隐私泄露威胁[Zheleva and Getoor, 2009]为了帮助用户更好地管理他们在在线图片分享网站的行为我们提出了一个创新性解决方案:通过从图片中自动识别敏感内容来限制个人隐私泄露风险

我们的贡献如下:

  • 我们对ImageNet数据集上的预训练CNN架构进行了系统性分析,并整合了支持向量机(SVM)分类器来辅助图像隐私预测任务。通过详细提取来自四个成功部署的卷积神经网络(CNNs)的对象识别架构中的高级视觉语义特征以及图像描述信息,并结合软最大函数进行融合处理。
  • 具体而言,在对象识别体系结构中提取并比较了AlexNet、GoogLeNet、VGG-16和ResNet等四种主流模型的高级特征表示效果。
  • 通过精心设计的一系列实验测试,在预测图像隐私能力方面表现最佳的是ResNet架构。
  • 在后续研究中,我们重点考察了两种组合方案:(1)基于标签袋特征的传统机器学习方法;(2)引入深度学习技术以同时考虑用户标签和深度标签信息的新颖方法。
  • 最终结果显示,在基于深度视觉特征的传统机器学习方法中采用ResNet模型构建的最佳分类器表现优于其他候选方案。
  • 最后一项研究表明,在单一特征表示框架下无法实现的最大性能提升来自于多模态信息融合技术的应用

论文后续各部分内容安排如下:其中,在第2节部分我们进行了前期工作的概述;在第3节中详细阐述了problemstatement的核心内容;第四部分专门介绍了通过多种CNN模型提取用于隐私保护预测的关键图像特征;第五部分则着重给出了评估模型所需的完整数据集信息;第六部分不仅进行了实验介绍,并且详述了实验的具体设置以及所得结果;其中在第七部分完成了解析工作,并在此基础上简要讨论了几项主要发现、本研究工作中具有重要意义的应用场景以及未来发展方向,并对全文进行了总结

2.相关工作

近年来,在社交网络领域中逐渐兴起的新颖隐私侵权现象已经引起了大量研究人员的关注并深入探讨这一领域[Zheleva和Getoor, 2009]。这些研究者不仅向公众普及了与在线共享图像相关的Privacy awareness概念,并且提供了多个具体的研究案例[Henne等人, 2013年;Xu等人, 2015年]。基于此思路展开了一系列研究工作,在分析社交网络中用户的首要问题时采用了多种方法[Ghazizadeh等人, 2013年;Gross and Acquisti, 2005年;Ilia等人, 2015年;Krishnamurthy and Wills, 2008年;Parra Arnau等人, 2014年;Parra Arnau等人, 2012年;Simpson, 2008年]

此外也有研究表明,在移动设备与在线平台中分享的照片涉及哪些隐私决策?其中一些著作探讨了这一问题并提出了相关考虑因素[Ahern等人, 2007年;Besmer和Lipford, 2009年;Gross和Acquistic, 2005年;Jones和O'Neill, 2011年]。例如Ahern等人(2007)探讨了隐私决策涉及的因素包括用户对个人隐私感知的影响、基于内容类型和社会情境的决策模式以及不同用户如何调整其隐私偏好以及在信息共享上的行为。研究者指出应该开发能够支持并影响用户 Privacy decision-making process的应用程序。Jones and O'Neill(2011)则强调图像相关的Privacy concepts对于个人选择的重要性。例如他们指出人们通常会避免分享与社交关系相关联的照片而不是出于功能性拍摄的照片;同时在特定场景如工作场所酒吧或音乐会等高互动环境里人们倾向于分享较少的内容。 Besmer and Lipford(2009)的观点认为个人应掌握对共享内容的控制权但与此同时他们还认为为每个图像设置适当的Privacy参数可能会带来不便

最近的研究关注到一种名为自动化图像隐私的方法。该方法已在四个研究方向上进行了深入探索:首先是对基于社交团体的研究,在这种情况下用户的档案被用来将好友列表划分为若干个团体或圈子,并假设来自同一圈子的朋友具有相似的隐私偏好;其次是对基于地理位置的研究,在这种情况下位置上下文被用来控制基于位置的信息披露;第三是对基于标签的研究,在这种情况下标签被用来提供隐私设置的相关建议;最后是对基于视觉特征的研究方向,在这种情况下图像的视觉特征被用来预测隐私保护需求。

基于社会群体的方法已被用于在线图像自动隐私决策机制的研究中的一些应用领域中的一些应用中

地理位置相关的技术方案主要涉及地理标签、视觉地标和其他位置上下文信息的综合运用。其中一些方案依赖于社交平台提供的辅助信息如社交标签等来进行手动获取。同时这些方法也包括GPS配带的数码相机或智能手机设备能够自动获取位置信息的方式。此外在共享图像中还可以通过计算机视觉技术推断出地理位置的信息以实现对位置数据的有效管理与保护

基于标签的技术已在访问控制策略与图像隐私预测领域取得显著进展(Apos-tolova and Demner-Fushman 2009; De Choudhury 等人, 2009; Klemperer 等人, 2012;库尔坦和约鲁姆 2018; Mannan 和 van Oorschot 2008; Pesce et al.2012; Ra 等人, 2013 年; Squicciarini et al.2012, 2015,2017b; Vyas 等人, 2009;杨等人, 2009;Zerr et al.2012b)。其中指出,在将用户标签与访问控制规则联系起来方面取得显著进展(Squicciarini et al.[2015])。其中Squicciarini et al.[2017b]深入研究了利用用户标签进行图像隐私预测的学习模型,并发现其对于准确预测图像隐私具有重要意义(Squicciarini et al.[2015])。此外,Vyas et al.[...]等研究者也进行了相关探索(Vyas et al., 用于表示其他引用)。Klemperer 等人 [..]则考察了用户注释标签对创建访问控制策略的影响(Klemperer 等人 [..])。然而,在现有研究中仍面临诸多挑战:许多在线图像 [..]由于标签稀缺性等问题限制了隐私分析精度(Sundaram et al. [..])。为此我们先前的工作中提出了自动图像标记方法(Tonge and Caragea [..]),并发现结合预测标签与用户标签能显著提升隐私预测性能

基于视觉特征的方法有多部作品进行研究与应用,并表明这些方法在预测图像隐私设置方面具有信息性[Buschek et al.2015;Du faux and Ebrahimi 2008;Hu et al.2016;Kuang et al.2017;Nakashima et al.2011、2012、2016;Orekondy et al.2018;Shamma and Uddin 2014;Squiccarini et al.2014、2017a;Tonge and Caragea 2015、2016 以及 2018;Tran et al.2016;von Zezschwitz et al.2016;Wu et al.2018;Yu et al.

最近, 计算机视觉领域转向关注环境神经网络(CNN)在物体检测[Le et al. 2014, 2013]以及语义分割[Dong et al. 2013 等相关任务上的应用]. CNN已在ImageNet上取得了物体识别领域的最新进展[Russakovsky等人于2015]. 基于这些显著成果, 相比于SIFT与GIST等视觉特征, 多少研究人员[Kuang等人于2017;Tonge 和 Caragea 于2015、2016、2018;Tran等人于2016;Yu等人于2017a、2018]展现出对隐私预测问题有潜力的研究成果. Yu等人[在文献中以编号为( [ [ [ 以编号为( [ [ [ 等人[ Yu等人在文献中以编号为([ [ [

使用CNN,一些工作开始探索个性化先验预测模型[Orekondy等人2017;Spyromitros-Xioufiset等人2016;Zhong等人2017]。例如,Spyromitros Xioufiset等人[2016]使用从CNN中提取的特征来提供个性化的图像隐私分类。Zhong等人[2017]提出了在线社交媒体网站中基于aGroup的图像隐私分类个性化模型,该模型学习了一组原型隐私模型(组),并将给定用户与其中一个组相关联。Orekondy等人[2017]定义了一组隐私属性,这些属性首先根据图像内容进行预测,然后结合用户偏好使用这些属性来估计个性化隐私风险。尽管有证据表明个人的共享行为是独特的,Zhong等人[2017]认为,个性化模型通常需要大量的用户数据来学习可靠的模型,并且培训和存储每个用户的模型需要花费时间和空间,同时考虑到用户共享活动和隐私偏好的潜在变化。Orekondy等人[2017]试图通过对用户隐私档案进行聚类,并训练一个分类器,将目标用户映射到其中一个聚类中,以估计个性化隐私得分,从而解决其中的一些限制。但是,用户的隐私配置文件是使用一组属性获取的。其定义基于个人身份信息[McCalister等人,2010年]、1974年《美国隐私法》和官方在线社交网络规则,而不是从社交网站的实际用户那里收集关于敏感内容的意见。因此,敏感内容的定义可能无法满足用户的实际需求,这限制了它们在现实使用场景中的适用性[Li等人,2018]。在此背景下,值得一提的是,CNN还用于另一种隐私相关工作,如多方隐私冲突检测[Zhong等人,2018]和敏感图像内容的自动编校[Orekondy等人,2018]。

视觉特征与标签辅助下的图像表征成为隐私保护工作的核心要素。本研究致力于通过解析用户隐私偏好与行为模式来深入探究卷积神经网络(CNN)的深层次特性。具体而言,在这项研究中我们旨在识别一组对图像隐私保护具有最强鉴别能力的深层次功能特性,并在社交平台发布包含私人或敏感信息图像之前对其实施分类标记工作。据我们的调查发现,在现有研究中尚无类似系统性分析方法可应用于CNN架构的设计与优化。通过一系列综合性实验结果表明,在处理包含数万张图像的大规模数据集时该方法较其他复杂算法展现出显著的优势与优越性。

3.问题陈述

我们的目标是在社交网站上分享图片之前准确识别图片中的私人或敏感内容。具体而言,在给定一张图片的情况下,请问您是否能帮助我们训练一个模型?这个模型需要根据普遍的隐私标准将这张图归类到两类中的一类:要么是私密类(包括自画像、家人照片、朋友照片等),要么是非私密类(例如工作文件)。此外,请您确定哪些信息在视觉上容易被辨别出来?通过这样的分类方法,在实际应用中如何平衡用户体验与数据安全之间的关系?为此目的,请问您是否愿意提供一些具体的案例来辅助我们更好地理解这个问题?

由于隐私可从视觉内容中提取出描绘的对象及与其相关的标签信息,则我们决定聚焦于视觉特征及其标签信息来进行分析。针对本研究目标,在分析时未涉及与图像相关的其他上下文信息(如图 owner及其社交活动的信息)。因此我们关注视觉特征及其标签信息来进行分析

我们将在下一节中描述分析中考虑的特征表示。

4.图像编码

在本节中阐述了不同预训练与微调后的CNN架构及其应用。详细介绍了视觉特征编码与标签关联编码方面的最新进展,并重点说明了如何提取可用于图像隐私预测的关键特征表示。其中主要采用四种不同的CNN架构:AlexNet(Krizhevsky等人的研究团队)、GoogLeNet(Szegedy等人的开发)、VGG-16(Simonyan和Zisserman的研究成果)以及ResNet(He等人的创新设计)。这些模型架构的选择均基于其在大规模ImageNet对象识别挑战中的卓越表现(Russakovsky等的研究)。此外还借鉴了Kim提出的基于文本处理的卷积神经网络模型,并将itto图像中的文本标记应用于隐私预测任务的研究框架中。

4.1 准备工作:卷积神经网络

CNN是一种由动物视觉皮层组织所激发的前馈人工神经网络。网络中的学习单元称为神经元。这些神经元学习通过自动图像识别将输入数据,即狗的图片转换为相应的标签,即“狗”。CNN的底层由交错卷积和池层组成,顶层由完全连接(fc)层和概率(prob)层组成,概率(prob)层是通过对前一个fc层的输入应用softmax函数获得的,它表示输入图像可用类别的概率分布。当我们通过一个架构提升时,网络获得:(1)较低层特征(色块、线条、角);(2) 中间层特征(由较低层组合而成的纹理);和(3)更高(更深)层特征(通过组合中间层获得的像对象这样的高级图像内容)。由于在线图像可能包含多个对象,所以我们考虑从深层提取的特征,因为它们有助于精确地编码对象。

基于图像数据的二维拓扑结构,CNN特别地在卷积层中采用局部连接机制,通过权重共享机制处理高维输入数据,并结合池化层进一步提取更高层次的抽象特征或全局信息。每个卷积单元接收其所在位置L的一个小区域,被称为DRL(x)(即感受野)。具体而言,对于输入图像x,负责该区域的单元计算σ(W·rl(x)+b),其中W表示权重矩阵,b代表偏置向量,σ则是一种非线性激活函数,如sigmoid激活函数或修正线性激活函数等。在整个训练过程中,这些参数会不断优化以适应数据特征,CNN中的所有卷积单元会共享相同的权重参数以提高模型效率。池化单元则从上一层卷积操作中接收对应的小区域信号,并对其应用平均池化或最大池化操作以获取更高层次的信息特征。在训练阶段,CNN遵循前馈传播和反向传播流程:前馈传播接受输入信号生成输出结果;反向传播则根据输出与目标之间的误差信号计算梯度更新参数的过程[Jia等人,2014]。

4.2 通过预训练CNN导出的特征

Russakovsky等人,2015年

Russakovsky等人

AlexNet体系构建了一个包含八层网络的架构;该架构采用了卷积神经网络结构作为前五层设计,并在剩下的三层中采用了全连接的设计方案。研究团队主要通过分析三个全连接层(分别标记为 fc6-A、fc7-A 和 fc8-A)以及输出层(标记为 "prob-A")来提取关键特征。经测量发现各层的空间维度大小依次为 4, 4, 1, 千维空间。

基于Inception架构设计的GoogleNet模型构建了一个包含22层的深度神经网络。该网络由多个层级模块构成,在输出端连接各模块产生的特征图以促进后续处理。在训练过程中,我们重点关注最后两个关键层级:loss3-G / classifier 和prob-G。这些层级分别对应于内积层和概率预测层,并且它们的空间维度均为1000像素。

该架构构建了一个由16个深度层组成的网络体系;其堆叠的卷积层具有极小的感受野(3×3),随后接有全连接层。具体包括13个卷积层以及3个全连接层;其通道数量从第一层的64开始,在每次最大池化之后翻倍增长直至达到512。我们提取自全连接层的特征分别命名为fc6-V、fc7-V及fc8-V,并将其输出端标记为“prob-V”。其中fc6-V至fc8-V及prob-V的空间维度分别为4096×4096、4096×4096、1000×1000及1×1。

ResNet(或残差网络)通过基于引入短路径的方式,在深层网络中传递梯度信息,并能够支持构建更为复杂的网络结构以缓解梯度消失问题。 其中具有恒等映射功能的残差模块被定义为:

He等人,2016b

He等人

在公式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:式中,在公式...内完成以下操作:

4.3 微调CNN

对于特定类型的编码方案,在经过大规模训练(如ImageNet)的大规模数据集上建立的深度学习模型时,我们采用小规模训练(如隐私标记)的小型数据集进行迁移微调。该迁移过程基于预训练模型的概念[Bengio 2012;Donahue et al. 2013]。具体而言,在经过进一步优化的小型专用小规模数据集中继续反向传播以更新预训练网络的权重参数。这一过程使得预训练权重参数更加贴合当前特定场景下的隐私特性。为了实现这一目标,在四种主流深度神经网络架构(AlexNet、GoogLeNet、VGG-16及ResNet)的最后一层全连接块中进行了系统性的参数调整工作:我们将输出单元的数量从原先的对象类别数量(1000个)缩减至专为隐私属性设计的两类(如将原先拥有1000个输出单元的全连接层fc8修改为仅包含两个输出单元的新全连接层fc8-P)。在此过程中,默认继承自预训练模型的所有中间层参数权重作为初始化值,并利用专有隐私数据持续迭代优化所有层参数配置以实现最佳拟合效果。最终目标是通过应用softmax函数对经过新设计全连接层处理后的输出结果进行概率预测:具体而言,在改进后的架构中(如VGG-16中的fc8-P),我们将输入视为两个竞争类别的条件概率分布,并应用softmax函数计算图像属于这两个隐私类别的概率值(见图3所示)。

在我们的案例中,在我们所举的例子中, zi对应的是经过更新后最后一层全连接层, 其中, VGG-16架构中的fc8-P层被特别指出作为这一修改的核心组件. Pr被定义为私有类别(Private)的输出端口, 而Pu则对应公共类别(Public)的输出端口. 值得注意的是, 在此过程中我们采用了基于VGG-16模型的技术, 如图3所示的数据流架构进行了优化

4.4 图像标签(标签袋模型)

隐私预测方面的先前研究[Squicciarini et al.2014, 2017b;Tonge and Caragea 2015, 2016; Zerr et al.2012b]发现,在ImageNet数据集之外的任务场景中, 与图像相关的属性通常与其敏感性相关联。这种属性不仅对直接处理图像的任务具有重要意义,例如索引、共享、搜索、内容检测以及社交发现[ Bischoff ]而言,而且在社交网站上的图片也提供了额外的信息,例如通过用户分配的标签[ Tonge and Caragea 2015, 2016 ]获取。值得注意的是,在社交网站上并非所有图片都配有用户标签,并且这些用户标签往往较为稀少[Sundaram et al.2012]。为了弥补这一不足,我们开发了一种自动化的技术流程来补充这些缺失的视觉信息。具体而言,基于我们之前的研究成果[Tonge and Caragea 2015, 2016],我们通过预训练的卷积神经网络(CNN)模型提取概率分布后识别出 topk object类别,并将其作为深度属性添加到原始图片中。这种深度属性不仅提供了关于图片的基本信息,还能够反映一些隐含的内容特征[ Bischoff ]。然而需要注意的是,由于ImageNet数据集仅包含大约1千个具体的物体类别,而我们的深度属性中包含了一些较为宽泛的概念如"人"和"女性",因此存在一定的局限性。

我们不仅融合了深度标签与用户行为数据,并且利用这些信息生成相应的二进制向量表示。进而揭示出词汇表中各个标签的存在与否情况。具体而言,在构建该模型时,默认假设每个图像在其所属的标签集中对应一个二进制向量(大小为|V|),其中若某个特定位置(V)对应的词存在于该词典中,则标记值设为1;反之则设为0。我们将此模型称为 Bag-of-Tags (BoT) 模型,并在图 4 中展示其详细架构图

4.5 标签CNN

基于卷积神经网络(CNN)的自然语言处理模型在多项NLP应用中均展现出显著的效果,在包括语义分析(Yih等人, 2014)、信息检索过程(Kalchbrenner等人, 2014)、句建模(Kim, 2014)以及传统NLP领域(Collobertet等人, 2011)等多个方面均取得突破性进展。Kim在2014年提出了针对句级分类任务的CNN架构设计,并在此基础上构建了相应的模型框架。研究发现,在此类任务中提取有助于分类的关键术语不仅能够提升模型性能,并且通过图像标签仅用于标识与动物相关的关键术语这一方式能够进一步优化结果质量。基于此分析结果,在隐私预测领域中我们也采用了该模型结构,并通过大量实验验证其有效性与适用性

图5所示Kim (2014) 的卷积神经网络架构类似于Collobert等人(2011)提出的架构,在基础构建上进行了轻微修改。该架构建立在基于无监督神经语言模型学习得到的词向量之上,并附加了一层卷积层进行处理。具体来说,在我们的实现中将词汇(标签)嵌入到预训练词向量空间中。这些预训练词向量主要来源于Leand Mikolov(2014)在大规模语料库(如谷歌新闻)上学习得到的结果;而对于未包含在预训练单词集中的词汇,则被随机初始化。随后,在隐私数据集上对这些词向量进行了微调以提升性能。接着我们采用了不同尺寸(3×3、4×4和5×5)的不同滤波器,在嵌入后的词汇空间上执行了多次卷积操作,并生成相应的标签特征表示。为了提取最具有代表性的特征信息,在每张特征图的基础上应用了最大池化操作(参考Collobert等人, 2011)。最终我们将所有提取到的关键特征传递给一个全连接层并结合Softmax函数计算出隐私标签的概率分布结果。Tag-CNN架构的具体实现示意图见图5

5. 数据集

我们对该方法进行了测试,在从PicAlert数据集采集的32000张Flickr图像子集中进行了评估。该数据集由Zerr等人[2012b, a]提供。PicAlert由不同主题的Flickr图像构成, 外部观众手动将其标记为Public或Private标签。这些图片涵盖了2010年1月至4月期间上传至Flickr的所有照片。共有81名参与者, 年龄范围为10岁至59岁, 分组情况如下:其中一组团队是在研究中心工作的计算机科学研究生组成的;其余各组则由社交平台上的用户组成。参与者按照指导原则对图片进行了标签分类:专有图片被认为是私人领域(如自画像、家人照片、朋友肖像或其他私人文档)或是包含不与其他共享信息的内容;而重建后的图片则被明确标注为公共图片;如果无法做出判断则将其标记为待定状态。为了确保一致性, 每个图片会被展示给至少两名不同的参与者进行评估;如果出现分歧则会提交给其他参与人员重新审核;最终我们只考虑那些被明确标注为Public或Private的图片

对于所有实验的研究工作均基于包含32000幅图像的数据集合进行划分操作。该数据集合被系统性地划分为训练集与验证集两部分,在具体实施过程中采用了不同序列/测试分割策略,并进行了五次独立运行(获得五个不同的随机种子),最终取各次运行结果的平均值作为统计依据。在训练集与验证集中分别保持了公共样本与专用样本的比例均为3:1的比例关系。

6. 实验、结果和观察

在本节中, 我们进行了系列实验, 目的是评估不同深层架构提取的特征表现, 从而确定能够有效捕获复杂隐私特征的最佳架构, 并实现对隐私类样本的有效区分. 首先, 我们选择了多种机器学习分类器来进行模型构建. 接着, 利用所选分类器对来自四个深层体系结构(包括AlexNet、GoogLeNet、VGG-16和ResNet)提取的视觉特征进行了深入分析. 这些体系结构均经过了对象数据预训练, 因此具备了一定的数据表示能力. 在此基础上, 我们对竞争数据进行了微调训练, 进一步优化了各体系结构的表现. 最后, 我们对比了经过微调后的模型性能与现有隐私预测模型及基准方法的表现差异, 并详细分析了深度标签组合策略对隐私预测的影响. 通过在标签袋模型和标签CNN两种设定下分别评估标签性能, 我们得出了最优特征组合方案. 同时, 我们还重点研究了最能体现信息量的隐私标签及其对隐私分类的作用机制. 最后部分则聚焦于基于视觉编码与标签编码最优融合特性的模型构建与评估工作

6.1 基于预训练CNN的特征分类实验

我们首先选择一个最适合从预先训练的CNN中提取特征的分类器。为此我们进行了以下几种分类算法的研究:朴素贝叶斯(NB)、随机森林(RF)、逻辑回归(LR)和支持向量机(SVM)。其中NB是一种生成模型RF则基于决策树构建而SVM与LR属于区分方法。我们通过从所有体系结构的最后一个完全连接层提取功能(即AlexNet fc8-AGoogLeNet loss3-Gfc8 VGG-16和ResNet fc-R)来评估这些分类器的表现效果如图6所示该图展示了这些分类器在四种体系结构下的F1度量值表现情况从图表中可以看出除了NB表现出较差效果外其他分类器的表现较为一致例如对于Alexnet使用NB方法得到的F1度量为0.781而SVM则得到较高的F1测度为0.872类似地对于ResNet而言SVM与LR分别得到了F1测度为0.872和0.865值得注意的是支持向量机与LR之间的差异在此处达到了统计学显著性(p<0.05)。基于以上分析为了后续实验我们将采用预训练CNN提取特征并应用支持向量机作为分类模型

为了评估所提出的特征我们采用SVM Weka工具进行实现并基于训练集应用10折交叉验证的方法来选择优化化后的超参数值实验中采用C= 0.001 、 0.01 和 1.0 至 10.0 的等比数列作为实验范围其中包含多项式核与径向基函数(RBF)核两种不同的核类型配置对于RBF内层采用指数衰减率γ参数以及多项式内层则设定不同阶次d值以探索最优组合关系所有后续表格中显示的具体超参数设置均遵循以下统一格式" R/P C γ/d "其中" R "代表" RBF 核"而" P "代表" 多项式 核

6.2 CNN架构对隐私预测的影响

在本研究中,我们的目标是通过分析基于AlexNet、GoogLeNet、VGG-16和ResNet四种架构提取的视觉语义特征来评估隐私预测模型的效果,从而确定哪种架构最适合隐私预测任务在ImageNet上的应用。我们首先提取了深度视觉特征:包括来自AlexNet的fc6-A、fc7-A和fc8-A以及prob-A;此外还包括来自GoogLeNet的loss3-G和prob-G;VGG-16提供了fc6-V;而ResNet则提供了fc-R和prob-R。针对Alex网路和Google网路,我们采用了CAFFE CNN开源框架提供的预训练网络[ Jia et al.2014 ]。针对VGG-16,我们采用了该团队在ILSVRC-2014竞赛中提出的改进版本[Simonyan and Zisserman 2014]。对于Resnet,我们采用了He et al.[2016a]提供的101层Resnet预训练模型

表1展示了根据从所有四个预训练网络中提取特征训练的支持向量机性能(包括精度、F1度量等指标)。观察表格可知,在基于ResNet提取特征的模型中始终表现出最佳性能。例如,在F1度量方面ResNet达到了令人满意的0.872水平(对比其他网络如AlexNet、GoogLeNet和VGG-16分别达到849, 0.861, 0.864)。这些结果表明ResNet在网络表示能力方面具有显著优势,并且能够更有效地学习图像隐私特征。值得注意的是ResNets相较于其"普通"版本拥有更深架构(后者仅能提取有限数量图像特定特征),这有助于更好地捕捉图像隐私信息的本质特性由于隐私涉及理解图像对象间的复杂关系因此基于ResNet获得的特征比简单叠加卷积层获得的特征更为充分

从表 1 可知,在所有比较度量(包括整体准确率、F1 分数以及准确率与召回率)方面,每个网络所达到的最佳综合性能均显著高于85%。值得注意的是,在采用"公共"分类策略的基准模型中,默认情况下所有测试集上的平均分类准确率达到75%。进一步分析发现,在VGG-16网络架构中,默认情况下各层输出结果的表现差异不大。然而,在AlexNet架构下,默认情况下各层输出结果的表现差异则更为显著。具体而言,在VGG-16网络中,默认情况下fc6-V层输出结果的表现优于fc8-V层;而在AlexNet架构下,默认情况下fc6-A层输出结果的表现同样优于fc8-A层。这一现象表明,默认情况下通过深度增强的方式能够更好地提升模型性能。值得注意的是,在非线性处理方面存在一定的差异性表现:例如在GoogleNet架构下,默认情况下"prob"层输出结果的表现略低于其他层级特征提取方式;而通过引入softmax函数压缩前一层的值(如loss3-G),其效果相对不如直接提取并使用未经过非线性变换的SVM方法进行预测;此外,在特征组合实验中发现,默认情况下各层级之间的组合并不一定能带来显着提升效果

此外,在图7中展示了1度量的方框图以分析性能。该图表基于所有体系结构中最具潜力的特性,在五个随机数据集分割上生成。从图表结果来看,基于ResNet的功能训练模型在统计显著性上优于由其他体系结构衍生出的功能训练模型。通过图8中的精度指标对曲线进行了重新校准。进一步观察发现曲线再次显示从ResNet获得的功能比其他架构表现更为优异:其召回范围达到0.5并保持稳定直至0.85区间。具体而言,在AlexNet、GoogLeNet、VGG-16和ResNet架构下分别实现了1.75%、1.8%、1.8%和1.85%的精度值。

6.3 微调网络与预训练网络

之前的工作表明,从对象数据集上预先训练的网络到隐私数据的特征实现了良好的性能[Tran等人,2016]。此外,许多其他研究使用“迁移学习”来获得更多数据集特有的特征[Ben gio 2012;Donahue等人,2013]。因此,我们在隐私数据集上确定微调网络的性能。我们将所有四种结构的微调网络与从预先训练的网络中获得的深层特征进行比较。我们将AlexNet、GoogLeNet、VGG-16和ResNet的微调网络分别称为“ft-A”、“ft-G”、“ft-V”和“ft-R”。对于微调,我们使用了在对象数据集上预先训练的sameCNN体系结构,并在以前的实验中使用。为了微调网络,我们试验了三种类型的设置:(1)微调最后一个完全连接的层(有两个输出单元对应2个竞争级别),与网络其余层(0.001vs.0.0001)的学习率相比,学习率更高,称为“fc”(2) 使用较高的学习率微调网络中所有完全连接的层,使用较小的学习率学习卷积层。我们将此设置称为“fc all”(3) 以相同的学习速率微调所有层,并表示为“全部”请注意,由于ResNet和GoogLeNet只有一个完全连接的层,因此我们只报告使用“fc”和“all”设置获得的性能。极低的学习率避免了预训练层的实质性学习。换句话说,由于极低的学习率(0.0001),与学习率较高(0.001)的层相比,预先训练的层学习速度非常慢,以获得隐私数据所需的权重。

表 2 比较了通过微调架构在隐私数据上获得的模型与基于预训练网络派生出特征训练后的模型在性能上的差异。值得注意的是,在对预训练架构进行微调并应用于隐私数据集时,在我们的研究中发现所得结果大多相似于使用源自预训练架构特征进行训练的情况。然而,在具体实施过程中发现,在私有类样本上的召回率有所提升(参见 ft-V, fc-all setting vs. fc8-V)。例如,在经过微调优化后VGG-16网络在私有类样本上的分类准确度较从预训练特征提取所得基线模型提升了6.7%左右(如图所示)。值得注意的是,在使用预训练特征进行微调优化后所获得的结果(以粗体显示)表现出了更好的泛化能力(以斜体显示),而从ResNet派生出特征所建立的分类器则展现了最佳的整体性能(同样以粗体显示)。因此,在下一节我们将对比分析基于fc-R特征求取结果的方法与现有隐私预测方法之间的差异性

6.4 基于ResNet功能的模型 VS 先前工作

我们将最新的先验预测成果(详见下文)与其基于Resnet功能(即fc-R)训练后的版本进行对比。

Tran等人,2016

Tran等人, 2016

Tonge and Caragea 2015、2016、2018

Tonge and Caragea 2015、2016、2018

3.基于规则的方法:我们对比了ResNet fc-R特征上的模型与两个基于规则的方法在性能上的差异。其中第一个方法利用Viola-Jones算法[Viola and Jones, 2001]对正面及侧面面部进行检测;第二个方法则依据用户的标签信息(如"女性"、"男性"及"个人")来进行判断。值得注意的是这些标签并未出现在ImageNet数据集中的ILSVRC-2012子类别集合中因此我们仅针对这些特定的人类属性进行分析如果一张图片包含了以上任何一个标签或者检测到SA的脸部则将其归类为私人图片反之则将该图片归类为公共图片

表 3 对比展示了基于 fc-R 特征(来自我们先前实验中取得的最佳性能特征)训练模型的表现与前人工作的表现差异。观察表中的数据可知,在 fc-R 特征提取方面取得了显著优势:通过从预训练 ResNet 中提取深层特征的方式实现了最高水平的表现,并显著优于前人工作关于这两个类别的隐私特征学习能力。具体而言,在 F1-measure 指标上实现了从 PCNH 框架下的 0.824 提高到 0.872 的进步幅度(5%),并在私有类任务上实现了相较于 PCNH 框架下复杂特征(F1-measure 分别为 0.624 和 0.717)9.8%的提升效果。

一种可能的理解是,在AlexNet体系结构的基础上新增了一些完全连接层以形成目标CNN架构这一过程带来了更多的可学习参数与此同时在训练数据量上采用相对较少的数据集如PicAlert与ImageNet对比的方式更为适合目标CNN模型.另一方面由于图像中的对象隐私主要依赖于对象特征因此我们认为相比于新增更多非线性层(如PCNH)通过卷积层提取的不同属性特征(例如游泳衣与短裤边沿处)能够更好地模拟隐私函数这一特性.实验结果表明相比于拥有更多完全连接层(即PCNH)的网络相比拥有更多卷积层(即Resnet)架构实现了更好的性能.此外尽管PCNH尝试利用卷积CNN提取卷积特征但卷积操作与目标识别能力存在差异因此很难实现卷积CNN与目标CNN的最佳统一.此外PCHIS需首先在ImageNet上完成初步训练随后在PicAlert数据集上进行微调.通过分别对PCNH等深度网络进行两次训练处理效率和速度均得到显著提升.另一方面基于我们进行的一系列实验分析显示从最先进的ResNet模型中提取特征不仅降低了再训练开销还能够获得更好的隐私预测性能

具体来说

这些改进不仅减少了对复杂结构训练过程的影响

总体而言

因此

综上所述

值得指出的一个有趣点是:尽管我们在早期展示了微调网络(如VGG-16)并未显示出比基于ResNet的预训练功能(参见表2)显著的优势;相比之下,在与PCNH框架的对比中,则我们的方法表现更为出色。具体而言,在表2和表3中可以看到:微调后的VGG-16(ft-V)获得了更高的F1分数(0.869),而PCNH仅为0.824。其中的一个原因是我们采用了更大的隐私数据集来训练更简单的架构模型,并非像PCNH那样融合了两个卷积神经网络;此外,在模仿Simonyan和Zisserman[2014]的研究基础上进行优化。

正如预期所示,在表3中可以看到,在所有评估指标上(如提高幅度达17%),基于 fc-R 的模型均表现优异;值得注意的是,在统计学意义上(p < 0.05),与先前的方法相比有所提升;然而,SIFT/GIST基线模型以及基于规则的模型在性能上表现最差;值得注意的是, facial features-based rules 在性能上优于 SIFT 和 GIST,并能够帮助预测个人图像;然而,值得注意的是,在所有评估指标上(如提高幅度达10%以上), fc-R 功能均优于 facial features-based rules.

我们对fc-R特征进行了进一步的研究,并通过图9(a)展示了一个精确召回曲线来与其先前的工作进行比较。结果显示,在几乎完全召回率的情况下(即召回率达到约1),onResNet特征的精度约为0.8;随后随着召回率超过这一阈值(或达到更高水平),其精度稳定地降低了。

在先前的研究中, 通过将分类阈值设定为 0.5 的方式进行计算, 得到了性能指标的表现数据。

6.5 表现最佳的视觉特征与标签特征

该图像标签为具有隐私意识的图像检索提供了相关线索[Zerr et al.2012b] ,同时可作为在不暴露敏感细节的情况下展示深层网络隐秘内容的关键工具 。此外 ,先前的研究表明用户标签的表现优于或与视觉特征相当 [Squicciarini et al.2014 ; Tonge and Caragea 2015, 2016, 2018 ; Zerr et al.2012b] 。例如,在我们之前的探究中 [Tonge and Caragea 2015, 2016, 2018] ,我们展示了来自 AlexNet 的用户标签和深度标签结合所带来的性能优势 。因此,在本研究中 ,我们对比了 fc-R 特征与标签特征的表现 。对于深度标签 ,我们采用了与先前研究相同的提取方法 ,并选择 topk=10 的对象标签进行分析 ,因为其表现出最佳效果 。 “DT-A”、“DT-G”、“DT-V” 和 “DT-R” 分别代表由 AlexNet、GoogLeNet、VGG-16 和 ResNet 生成的深度标签 。深度标签是通过在各个 CNN 最后一层全连接层上应用 softmax 函数获得输入图像 1,000 个对象类别概率分布而生成的。

表4对比分析了基于fc-R特征训练与基于标注特征训练的不同模型性能

从表 4 中可以看到 Tag CNN 在 private class 的 F1-measure 上较 Bag-of-Tags 模型(DT-R+UT)提升了 3.0%。值得注意的是尽管 visual features (fc-R) 在整体性能上优于 tag features 所产生的结果 然而对于 private class 来说两者的 F1-measure 值较为接近 其中 visual features (fc-R) 达到了 0.717 而 tag-based CNN 则为 0.706。有趣的是在 private class 分类任务中 Visual CNN (fc-R) 的准确率较 tag-based CNN 高达 8% 同时 tag-based CNN 在 Recall 率方面则超越了 Visual CNN 提供了 5% 的提升

为了考察不同召回率对应的精度变化情况,在图 10 中展示了视觉特征与标签特征的Precision-Recall曲线图。为了避免混淆, 我们通过ResNet以及结合用户标签与深度标签衍生出的深度标签精度-召回曲线(DT-R)。观察该曲线可以看出ResNet提取出的视觉特征优于标签特征,在召回率范围上表现更为宽广,在0.3至0.8之间都有较好的表现。

我们基于收集并利用隐私预测的数据,对图像编码类型的视觉与标签进行了深入研究,并采用这两种编码方案作为案例进行深入分析。

6.5.1必要示例:

接下来,我们提供关于隐私的图像标签的详细分析。

6.5.2 关联于隐私类别的图像视觉标记分析: 我们评估深度视觉标记(捕获图像内容)与其对应的用户分类标记之间的关联性,并探讨其与私有类别及公共类别的关系。首先,在训练集中基于这些标记的信息重要性来进行排序,并参考表5列出表现最突出的前五十个标记;在此过程中我们发现如"maillot""two-piece""sandbar"等标记显著关联于隐私类别;此外这些视觉特征占用了关键位置;其次依据其在不同类别中的分布情况排序;通过词云形式展示每个隐私类别下的五十个最频繁出现的关键词

我们注意到一些信息标签在公共云与私有云环境中共存(如图12所示的例子,“室内”)。基于此观察结果,我们需要深入分析那些同时出现于多个标签中的其他相关标签以进一步区分它们与公共类及私人类之间的关联性。为了更直观地展示这些共存关系,我们分别构建了用于表示公共类别和私人类别的两幅图表。具体而言,在描绘公共图表时我们将每一个信息标签视为图表中的一个独立节点,并根据这两个标签是否属于同一领域而决定其间的连接方式;同样地,在描绘私人图表时也将采用相同的逻辑方法进行建模。通过分析这些图表的数据分布情况可以看出,在公共类别中与‘室内’高度共现的更多是与私人相关的关键词(例如:‘人员’、“浴室”、“外套”、“领结”、“胸罩”等),而这些关键词在私人图表中则主要围绕私人属性展开关联

我们对10个私人与公共形象主题之间的隐私差异进行了深入探讨,并重点关注了公共场所如"户外"、"室内"、"喷泉"、"湖岸"以及"海岸"等区域。另一方面,则聚焦于私密空间中的个体形象特征及其相关元素:"室内""人""假发""肖像""户外""新郎""MayLood"等元素均被纳入考察范围。值得注意的是,在图像数据中可能存在多个关联标签的情况(即一个图像可能同时属于多个标签类别),因此我们在计算公共标签数量时采用了更为严格的标准:对于每个私密图像而言,在计算公共类标签数量时将计为3而非1(公共与私有标签的比例为3:1)。从图14(a)可以看出,在带有特定标签的所有图像中 private fraction 的分布情况:以"室内"为例,在所有包含该标签的图像中 private fraction 达到了60%的比例。通过图14(b)所示的数据集规模标准化后的 top 1000 标签频率分布图可以看出:前200个高频率标签几乎均匀分布在整个数据集中(每个标签出现的比例约为3%),而仅有少数几个高频率标签集中在约20%的数据集中;此外大多数 label 出现在低于3%的数据集中这一现象充分体现了数据集内容的多样性及其复杂性特征;这些观察结果进一步证实了增加图像数量会显著提高问题陈述难度这一命题的正确性

6.6 融合视觉和标签特征的图像隐私预测

视觉编码和标签编码捕捉图像的不同方面。因此,我们将前 350 个相关标签添加到视觉特征 fc-R 中,并评估它们的隐私预测性能。我们试验了最高相关标签的数量={10,20,···,50,100,···,500,1000,5000,10000}。但是,我们使用前 350 个相关标签获得了最好的结果。表 6 显示了使用在 fc-R 上训练的 SVM 以及 fc-R 与前 350 个相关用户标签(fc-R+tag)的组合获得的结果。结果表明,添加高度相关的标签可以提高隐私预测性能。准确地说,与使用视觉特征 fc-R 获得的性能相比,我们在私有类的 F1 度量上获得了 4% 的显着改进。请注意,在我们之前的作品[Tonge and Caragea 2015, 2016, 2018] 和实验 6.5(我们比较视觉和标签特征)中,我们使用标签(深度标签)描述视觉内容并结合用户标签以获得更好的性能。然而,与用户标签和 fc-R 特征的组合(组合两种类型的编码)相比,用户标签和深度标签的组合(组合一种类型的编码)产生的性能较低。准确地说,用户标签(UT)和 fc-R 特征的组合在私有类的 F1 度量(参见表 4 和表 6)中比用户标签和深度标签的组合提高了 5%。

7. 结论

本研究中

此外

该分类任务的结果可能为实际应用场景提供有益支持。例如,在执法机构面临审查各种数字证据时需特别谨慎——他们必须仔细检查可疑设备上的电子文件证据,并能够识别出包含儿童色情内容的具体图像与视频资料——例如通过检测敏感信息是否存在并标记出来以便后续处理。在此基础上开发的学习模型不仅可以减少过滤复杂性还可以显著提升效率——它能够自动识别出大量数据中具有敏感或私密性质的内容从而减少后续复杂分析的工作量并提高整体处理效率。此外还需要考虑的数据类型还包括那些涉及个人隐私或其他敏感信息的内容——例如社会安全号码等关键信息一旦泄露可能会引发严重后果因此我们必须采取更加严格的安全措施以保护这些信息不被不当使用或者泄露出去。

未来的研究成果将有助于构建一种创新性架构,在此架构中不仅能够提取出图片本身的视觉特征数据而且还能整合图片产生时所包含的各种附加信息。例如:包括但不限于图片拥有者的信息、他们的隐私偏好以及他们在社交网络上的活动等信息。此外,在这一领域中值得关注的问题还包括如何通过扩展这些基于卷积神经网络(CNN)的设计框架来识别并本地化私有图像中的敏感内容

全部评论 (0)

还没有任何评论哟~