Advertisement

影子人工智能:对企业采用生成式人工智能的隐藏威胁

阅读量:

数据所有者与用户可在其数据上部署本地学习模型(LLM),无需担心未经授权的第三方获取机密信息。
同样地,在保护训练数据、模型架构及参数的情况下(或:在确保安全的前提下),模型所有者仍可训练自己的model。
若发生data leakage事件,则黑客仅能访问encrypted data fragments,并无法接触到TEE内部隐藏的关键sensitive information。

生成式人工智能(GenAI)技术中,尤其是像OpenAI开发的GPT-4这类先进的语言模型,正逐渐被各类渴望在竞争中占据优势的企业所吸引。越来越多的企业开始意识到这些技术的巨大潜力,正在从根本上改变其业务运作模式和管理策略。然而,尽管人们对这一领域的关注程度日益提高,却仍然面临诸多障碍和挑战。

数据隐私问题是企业关注的核心议题之一。它不仅是一个核心议题,在推动企业业务发展方面也扮演着基础角色。

91%的企业表明他们认为采取更多措施是必要的,并且企业关心的数据处理方式是什么?

● 98%的组织向董事会报告隐私指标。

大多数组织表明,在缺乏充分的数据保护措施的情况下(即当数据未得到充分保护时),他们的客户不再选择与该组织建立业务关系。

GenAI将人工智能能力转交给更多用户。92%的受访者表示GenAI是一种全新的技术,并带来了更为复杂的挑战以及相关的问题,这些新挑战要求采用创新的方法来管理和处理数据与风险

此外,在全球各地不断有企业因违反了客户信任原则而导致被追加创纪录的罚款金额。

2022年9月,在违反《通用数据保护条例》的情况下侵害了儿童隐私权后,Instagram被爱尔兰数据保护专员(DPC)处以4.03亿美元的罚款。

中国网约车企业滴滴全球出行有限公司因违反网络安全法及相关数据保护法律而接受巨额罚款。

2021年夏季,零售业巨头亚马逊公布了其财务数据,在卢森堡政府违反《通用数据保护条例》的情况下被处以7.46亿欧元(8.77亿美元)的罚款。

数据隐私的风险从未如此高。

影子人工智能的崛起

随着人工智能不断推进向企业渗透发展,在深藏于暗处的潜在威胁下,这种力量可能严重削弱其广泛应用的基础:影子人工智能

在某种程度上类似于未获得授权软件应用的现象称为"影子IT"(Shadow IT),它可理解为,在缺乏组织监督的情况下部署或运用人工智能系统。然而它所带来的风险则更为显著。

无论是出于便利还是无知的原因,“妥善管理人工智能开发可能会制造定时炸弹”。当人工智能通过云服务变得更加易用时,“尽管它们仍然保持不可知的状态”。疏漏的控制措施留下了许多可利用的漏洞,“容易导致重大风险”。

希望增强自身竞争力的企业员工很容易将企业的关键数据复制粘贴到像ChatGPT这样的智能对话工具中或转而使用GoogleBard等类似服务。这种做法的主要目的是为了提高工作效率。当缺乏安全防护措施时,他们可能会寻找其他易于获取的方法来完成任务

去年春天,在无意中暴露了三次的情况下,三星的员工将机密信息传递给了ChatGPT系统。这些泄露的信息涉及软件代码以及会议记录,并引发了公司对于GenAI服务使用的严格限制

此外考虑到GenAIAPI易于获取软件开发人员能够较为便捷地将其整合到其项目中这将增添令人兴奋的新功能然而可能会导致最佳安全实践的流失

影子人工智能的风险

随着利用GenAI的压力越来越大,多种威胁也日益增多。

数据泄露

GenAI技术的增长速度迅速是一把双刃剑。一方面,在提升生产效率和推动创新方面展现了显著的优势;另一方面,则带来了与数据泄露相关的重大风险,在没有强大的人工智能通用性政策(AUP)和执行机制的情况下尤为明显。这种技术的高度易用性导致了一个令人担忧的现象:大量企业发现其员工在工作热情或追求工作效率的驱使下可能无意间泄露了公司的敏感数据给第三方服务提供商。

不仅仅局限于普通知识工作者的人工智能应用,在过去一年中还出现了一种特殊情况:去年一名微软员工因疏忽将38TB规模的大型语言模型(LLM)训练数据意外泄露于开发者平台GitHub。此次事件不仅暴露了技术细节风险还引发了对AI安全性的广泛关注。
其中包含了微软员工个人电脑的数据备份这些备份不仅包含了微软服务 account 密码、加密密钥以及 359 名微软员工存储于其各自电脑上的约 3.6 万条内部信息。

违反合规性

未经过合规审查的影子人工智能工具可能存在违反GDPR及其他法规的风险,这可能导致法律后果和罚款.此外,在跨国监管环境下的法律法规数量也在不断增加.

欧盟《人工智能法案》已获通过,使得相关事务变得更加复杂。违反规定可能面临处罚,其数额在3.5亿欧元至营业总额的7%之间(若行为性质及企业规模不同则数额有所差异)。

在1月29日这一天، 意大利数据保护局(简称DPA)——即 GaranteperlaProtezonedeiDatiPersonali——发布了通知, 揭示 OpenAI 违反了相关法律. 在去年3月期间, Garante 曾短暂地限制 OpenAI 处理个人数据. 基于事实调查显示的结果, 经过调查后发现, OpenAI 的行为已违反了欧盟GDPR的规定.

揭秘影子人工智能

组织希望拥有一种既能保护隐私又具备AI特性的解决方案,以便减少或消除保护隐私与充分发挥LLM潜力之间的鸿沟

虽然人工智能技术取得了重大进展, 但在实际应用中, 只有少数情况下能够成功实施这些技术, 以便有效地处理机密与敏感信息. 在生成式AI的全生命周期中, 为了确保信息安全, 必须采取严格的网络安全措施, 以便能够安全且高效地执行与模型相关的所有关键操作, 同时确保训练与推理过程中所有敏感数据的安全.

数据处理和去标识化通常被推荐为提升数据隐私的有效手段。然而,在实际应用中其效果可能不如预期的理想。在进行数据清理的过程中,在从大量原始数据中识别并剔除那些具有识别功能的元信息这一关键步骤上可能会遇到挑战。值得注意的是,在当前技术环境下此类方法可能会因其易遭受生成式人工智能攻击而导致信息泄露风险显著增加。

脱敏化即是从数据集里分离开个人身份信息的过程,在生成式人工智能技术的发展下同样面临着局限性。先进的人工智能算法已被实验证明能够在匿名数据集内重建个人特征。研究表明,在伦敦帝国理工学院进行的研究表明机器学习模型能够在匿名数据集内以惊人精度重建个人特征。研究发现仅通过年龄性别以及婚姻状况等15项特征便可达到99.98%的重建率在任意给定的匿名数据库中

此外,《麻省理工技术评论》报道的一项研究表明,即便数据集存在缺失或被修改,也可以轻易地从匿名数据库中恢复出个人身份.基于这一背景运用机器学习模型发现,现有的匿名化措施尚无法有效对抗现代人工智能系统的复杂性.

研究结果表明,政策制定者与技术专家需研发更具强大防护能力的隐私保护技术,以便跟上人工智能发展的步伐,因为传统的数据清洗与匿名化手段已无法保障GenAI时代的数据隐私

GenAI中更好的数据隐私解决方案

隐私保护技术和PET被视为GenAI领域最佳的数据隐私保护方案。在保护数据处理的同时维持系统功能完整性的情况下,该技术有效应对了数据共享、泄露以及监管合规等挑战。

值得注意的PET包括:

  • 同态加密:支持对加密数据执行运算并获取符合预期的解密结果。该方案相较于纯文本处理具备显著优势;然而其主要缺陷在于运算速度相对较慢且查询复杂度有所降低;此外还面临着潜在的数据完整性风险。
  • 安全多方计算(MPC):可使参与方在不泄露原始数据的前提下完成协作运算;该技术特别适合用于涉及敏感信息的安全场景;但其主要缺点在于整体性能有所下降;尤其在大语言模型(LLMs)的训练与推理过程中表现尤为明显。
  • 差分隐私:通过向数据库注入适当噪声来保护个人隐私信息不被重建;这种机制能够在一定程度上平衡个人隐私与数据分析的需求;然而其潜在缺陷在于可能会导致数据分析精度的下降;同时由于其本身不具备计算过程的数据保护能力;因此通常需要配合其他特定的安全技术手段使用。

尽管上述每种技术都提供了保护敏感数据的方法, 但是目前还没有一种技术能够充分释放生成式AI模型的计算能力. 然而有一种称为机密计算的新方法采用了基于硬件的可信执行环境(TEE), 这一技术能有效防止在运行过程中未经授权访问或修改应用程序和数据.

该技术可抵御未授权设备(包括但不限于主机操作系统、虚拟机管理软件、系统管理员、服务提供商、基础设施所有者以及任何具备物理存取硬件能力的人)对环境数据与代码的访问或修改行为。基于硬件的安全架构为系统提供了一个隔离防护层,在此环境中敏感信息无法被未经授权的人员访问或修改。

机密计算作为隐私保护的AI解决方案

机密计算作为一种新兴技术标准,在行业中逐渐占据重要地位。其核心在于对运行过程中的敏感信息实施全方位防护措施。该理念将传统意义上的静态与传输阶段的数据安全范畴拓展至动态使用的场景下,在当前广泛部署于本地、云端以及边缘设备等多平台环境下的计算体系中具有重要意义

这项技术对于组织处理敏感信息(包括个人身份信息、财务数据以及健康信息)至关重要。由于系统内存中的数据受到机密性和完整性威胁。

因为涉及机密计算的复杂性而衍生出的各项措施显得尤为关键。这一跨行业的努力对于推动发展至关重要,并且其中包含了重大的硬件修改,并对程序、操作系统和虚拟机架构进行了优化。CCC旗下项目的开源实践旨在提升该领域的技术标准与安全防护能力;这对于那些致力于保护在使用中的数据安全的专业人员而言具有重要意义

在多种环境中运行的机密计算方案包括公共云、本地数据中心以及分布式边缘位置。该技术对提升数据隐私保护水平具有重要意义,在保障多方分析的同时也需满足法规遵从性和数据主权要求。该方案能够有效地保护敏感数据并符合各国相关法律法规

最终目标:机密人工智能

保密型AI方案是一个专门的安全系统。
该系统采用基于硬件的安全执行环境(TEE),支持训练、微调以及推理过程。
TEEs负责完成训练、微调和推理任务,并确保敏感数据与未授权方之间不发生泄露。

数据所有者与用户能够在他们的数据上部署本地学习型模型(LLM),无需向未经授权的第三方披露机密信息。同样地,在确保其训练所使用的原始数据安全的前提下,在保护好架构与参数设置的同时完成建模工作。假设发生机密文件泄露事件,则黑客仅能获取加密的数据集,并无法获取TEEs内部存储的关键敏感信息。

然而,在单一依赖机密计算并不能有效防范模型在意外泄露训练数据细节上的风险的情况下,则需采取更为全面的安全措施。通过结合机密计算技术和差分隐私方法,在一定程度上降低了相关风险。该方法首先在TEE环境中完成数据处理,并在发布前实施差分隐私更新;这有助于减少推理阶段因数据泄露导致的安全风险。

此外,在线教育领域的敏感AI平台有助于LLM(大型语言模型)和服务提供方遵循各类隐私法规。通过采用先进的加密技术和安全的TEEs(可信执行环境)来保护敏感的数据内容,在建模者与服务提供方之间无需担忧其可能收集的用户数据的具体类型及其数量。

可信赖的执行环境下的机密计算技术和手段,在多维度上保障了人工智能系统数据的安全性并维护其创新成果的法律基础。基于机秘密管理方案与差异化的隐私策略及周详的数据治理方法相结合,在提升效率的同时也为更多企业利用人工智能带来的价值而服务,并且通过科学的设计实现了增强利益相关方的信任感及信息透明度

虽然还有大量工作要做,
然而这些技术的进步表明,
在将来人工智能能够以道德的方式部署。
但是我们必须继续倡导负责任的创新,
并推动平台赋予个人和组织控制其敏感数据使用方式的权利。

全部评论 (0)

还没有任何评论哟~