Advertisement

论文阅读----- Security and Privacy in Big Data Lifetime A Review

阅读量:

Security and Privacy in Big Data Lifetime A Review

Abstract

随着物联网(IoT)、云计算、互联网服务以及社交网络等新兴信息技术的快速发展,人们对大数据安全性和隐私性的兴趣日益增强。在这一过程中,大数据经历了从数据收集到数据传输与分析再到数据存储与管理的完整生命周期。然而,在数量、多样性、速度以及价值等方面具有显著特征的大数据分析特性——数量、多样性、速度、价值与准确性——对在整个数据分析生命周期中保护数据分析的安全性和隐私性提出了巨大的挑战。在本文中,我们深入探讨了确保数据分析安全性和隐私性的方案和技术。通过文献综述分析后发现,在数据分析全周期内实现数据分析的安全性保障与隐私保护仍面临诸多问题和挑战

Introduction

大数据为我们提供了巨大的机遇。
通过数据的进一步解析与分析来学习新的信息。
它在医疗、教育、金融以及政府等多个领域得到了广泛应用。
企业利用数据分析技术来掌握提升业务决策正确性和实现业务智能化的知识。
通过大数据挖掘技术优化用户体验。
不仅是为人们的日常生活带来便利与提升生活质量...还为企业创造了巨大的价值与机遇。

如果在数据生命周期中没有得到充分的安全管理,则可能导致用户的隐私信息被泄露,并且这包括以下几个关键环节:首先是在收集过程中的敏感信息可能被不当获取;其次是在传输过程中可能存在会被恶意篡改的风险;再次是在数据分析过程中可能会产生不可预测的影响;最后则是在存储与管理过程中可能面临资源浪费的问题。因此,在利用大数据带来便利的同时必须确保其安全性和隐私性。

Overview of Big Data
Definition and Features of Big Data
Entire Lifetime of Big Data

大数据收集(CLC),传输(TSM),处理和分析(PA)以及大数据存储和管理(SM)

在物联网中执行基础性的任务是进行大规模且杂乱无章的数据采集工作。这一过程与精确的数据处理及分析之间存在着密切的关系,并从而从中提取出有实用价值的信息。在互联网行业中存在多种强大的数据分析工具来完成这一任务,在这种情况下就需要使用相应的系统接口来进行操作。

数据传递是信息时代不可或缺的重要环节,在数据交换与传播的关键作用下发挥着不可替代的作用。
通常需要将物联网端与人机交互设备上的大量传感器采集的数据进行整合,并通过电源服务器(如云平台)进行存储、处理与管理。
它不仅促进了各参与方间的高效信息交流与协作共享机制的建立,并且为多维度的数据聚合、融合以及深入分析提供了可靠的技术基础。

数据预处理与分析是当前关注的重点方向之一,在大数据时代背景下进行的大规模数据预处理与分析工作旨在筛选出纯净、具有价值及重要性的原始数据样本,并借助一系列先进技术和算法模型来深入挖掘潜在的知识。在实际的数据预处理操作中多采用包括数据分析挖掘、机器学习算法构建以及自然语言处理等技术手段的应用,在这一关键环节上提高整个数据分析流程的效率与质量至关重要。通过这一关键环节的有效实施能够确保后续工作的顺利推进从而能够精准地提取出具有价值的专业信息而不受杂乱无章杂乱信息的影响。

数据存储与管理。随着互联网与云计算的快速发展,在大数据时代下,传统的数据存储与管理系统面临着巨大的挑战与取代需求。该领域涵盖的主要技术包括分布式文件存储系统、分布式数据库架构、标准化接口设计以及高效的查询语言开发等各项核心内容。

Technologies of Big Data Process

数据分析技术被称为DM。(Data Mining, DM)是一种在数据库知识发现领域中占据核心地位的数据分析技术。它是从海量复杂数据中提炼潜在价值的关键手段。通过将获取的信息转化为直观易懂的模型用于深入分析的方法论框架得以实现这一目标。比如,在日常运营中

云计算(CC)。云计算作为一项核心技术,在为云用户提供可靠且高度定制化计算环境方面发挥着关键作用。一般而言,在云计算架构中(SOA)[4]下可随时实现用户服务的弹性部署。用户可通过浏览器访问云服务,并通过应用程序或移动程序实现服务接入。云计算支持灵活调配IT资源以适应企业需求的变化。整个云计算交付计划包含多种类型:软件即服务(SaaS)、平台即服务(Paas)、基础架构即服务(IaaS)以及监控即服务(MaaS)。其中IaaS是构建Paas及SaaS所有云服务的基础平台。尽管已尽力确保安全措施到位并使所需应用程序在云端可用;但在Paas中当开发者构建自定义应用程序时仍需关注主机及网络入侵等安全问题;而IaaS中则需确保云提供商存储数据的安全可靠性。为此虚拟化技术、数据存储技术、资源管理技术和电源管理技术被视为云计算的核心技术支撑体系之一。云数据存储服务因其高需求性成为最受欢迎的云服务之一;此外在大数据生命周期中云计算的应用不仅限于数据存储还延伸至数据挖掘即服务及数据处理即服务等新兴领域;因此在当前 IT 发展趋势下云计算正扮演着不可或缺的重要角色

Hadoop是一种分布式计算平台用于高效管理和处理海量数据集。 Informatica提供的HParser工具旨在优化Hadoop性能以实现数据集成目标。该软件系统支持多种文档格式以适应复杂多样的数据源需求。 Hadoop的核心组件包括分布式文件存储系统(HDFS)以及MapReduce并行计算框架。 HDFS是数据存储与管理的关键基础设施它能够可靠地支持PB级规模的数据并通过高效的大吞吐量实现快速的数据访问功能同时利用廉价硬件提升系统的可扩展性特性。 在MapReduce执行过程中节点不仅负责数据存储还包括并行计算任务的执行流程 MapReduce是一种基于分批处理的方法将大量数据划分为多个块分别进行映射及归约操作最终获得结果的过程映射阶段通过特定操作对数据集中的每个元素进行处理生成中间键值对而归约阶段则将具有相同键的所有中间值合并输出最终结果以完成整个计算过程这一机制使得MapReduce成为处理海量数据的理想选择之一随着大规模数据分析的重要性日益凸显信息安全与隐私保护问题也随之变得更加突出为此Cloudera公司开发了一种基于角色访问控制的授权管理系统如Cloudera Sentry [7] 以此来保障其生态系统中各个组件的安全运行同时 Hortonworks推出了Apache Ranger这一工具旨在提供中央安全策略管理下的数据保护审核授权及身份验证功能从而全面提升系统的安全性

WAiKo's Data Mining and Machine Learning Environment (WEKA) is a widely accepted big data analytics software [8]. Since its introduction, it has been used for twelve years. The primary focus of WEKA is on data mining and machine learning. Users can leverage WEKA for natural language processing tasks, knowledge discovery processes, distributed and parallel data mining approaches, as well as open-source data mining methods. As reported in [9], the author integrated various ensemble meta-classifiers into a system called the Layered Iterative Multilayer Explanations (LIME) classifier to enhance classification performance. Additionally, WEKA provides a SimpleCLI tool to generate and execute all classification tasks grouped up to four layers. This tool enhances the flexibility of handling large datasets. However, the LIME classifier requires sufficient memory resources, and its performance should be further optimized.

通过以上说明,我们了解到云计算与Hadoop能够提供数据处理、分析、存储与管理的服务. Hadoop充当了大数据处理平台的角色,云计算则提供了数据处理与存储的服务架构. WEKA作为一个大数据分析与挖掘的工具包,它通过机器学习、知识发现(DM)以及自然语言处理等技术实现数据分析功能,无需顾虑数据规模、价值及准确性. 需要指出的是,Hadoop与WEKA作为特定的大数据分析工具箱,它们涵盖了其关键特性:数量、种类、价值与速度. 然而,当前版本在准确性的保障方面仍存在不足.

Requirements of Big Data Security and Privacy
Confidentiality机密

机密性被视为大数据安全性和隐私性的重要基础。我们有责任在整个生命周期内确保信息安全以防被恶意破坏者入侵造成关键信息泄露。
为了获取有价值的大数据分析信息 研究人员可能会破坏存储系统来获取敏感的数据。
由于疏忽或操作失误等原因可能导致关键信息泄露。
在从生成到分析的大数据分析全生命周期中 在收集、传输、处理、分析以及存储与管理这些环节中 机密性受到关注。
这一需求与大数目的价值及准确性相关联。
一旦发生泄密事件 其重要性将不复存在。
当研究人员试图通过篡改关键的数据或者获取敏感的信息来破坏系统的安全性时 大规模数据分析的价值可能会受到影响。

Efficiency效率

与传统的数据相比,大数据具有多样性与海量特征。其生命周期的四个阶段的发展速度成为关键关注点。它包含了高效的数据采集、传输、处理与分析环节,并伴随着存储和管理的需求。为了适应这些需求,在网络带宽方面提出了更高要求。由于效率限制,在同态加密和安全多方计算等技术上存在诸多技术局限性影响着研究进展,在当前文献中仍面临较大的技术难题。其重要性直接关联到大数据的安全性和隐私特性,并且这一属性与其所具有的5 V特性紧密相关

Authenticity真实性

在多个领域内大数据已得到广泛应用,并且作为实例医疗保健系统能够识别拥有大量数据的患者病症或者企业能够做出正确的商业决策。为了支持明智决策而需要具备准确性的实时数据,并且从而要求在整个数据生命周期中必须具备真实性和准确性以确保可信的数据源以及专业的数据处理机构能够满足合格的数据请求方的需求。这种真实性和准确性将有助于避免错误的分析结果并使从大数据中获得的价值最大化地提升这一要求对应于5个关键特征(5 Vs)以及准确性标准。

Availability可用性

即使通过DoS或DDoS等攻击手段对大数据造成威胁,
也必须保证其可用性。
应在任何时候都能访问,
否则可能会使其失去价值。
基于这些情况,
相关应用程序和服务无法正常运行。
因此,在整个大数据生命周期中,
确保其可用性至关重要。

即使通过DoS或DDoS等攻击手段对大数据造成威胁,
也必须保证其可用性。
应在任何时候都能访问,
否则可能会使其失去价值。
基于这些情况,
相关应用程序和服务无法正常运行。
因此,在整个大数据生命周期中,
确保其可用性至关重要。

Integrity完整性

为了获取高质量的可靠数据并确保其完整性至关重要。如果不保持数据的完整性,则会导致准确性出现问题。缺少完整数据将严重影响结果的质量。尤其是当缺失的数据对整体分析最为关键的时候,在整个数据生命周期中都需要保证其完整性。这与五个关键质量标准(5 Vs)中的准确性相关。

Security Schemes of Big Data
SMC Schemes

在SMC架构中,参与者能够利用自身拥有的输入数据以及私有身份信息来进行分布式计算.当计算任务完成时,每个参与方都能够准确地完成其应承担的任务,同时无法推导出其他原始输入数据.

根据文献[11]中的论述,在SMC库SEPIA的基础上进行了扩展工作。它提供了多种SMC协议用于安全信息共享网络中的信息交换。对等方可在数据传输阶段通过该方案实现任意二进制数据的匿名分发以保障信息安全。相较于标准评估结果而言 该机制不仅能够检测消息冲突还能够提升整体性能 并且需要所有输入向量必须具有相同的大小 这一要求即使在没有任何数据发送的情况下也同样适用 因此在实际应用中可能会导致该方案显得不够灵活 另外在防止DoS攻击方面其表现也较为有限

如文献[12]所述,在Laud的研究框架下

在文献[14]中,Jahan等人开发了一种新的安全与隐私协议,旨在为多方计算提供更高的数据安全性,并确保参与者之间没有零知识泄露.当从多个来源收集数据时,这种新型协议有助于提升数据的安全性和隐私性.该协议带来了通信与计算复杂性的显著增加.然而,这种方法仅适用于至少三个参与方的情况.

Homomorphic Encryption Schemes

作为一项重要的密码技术之一

刘等致力于构建一种基于多因素的身份验证系统以保障数据安全其中密码作为首要依据而混合用户配置文件则作为第二层防护机制以提升整体的安全性研究者着重平衡系统可靠性和数据隐私性采用FHE技术和模糊散列算法来确保服务器以及受信任或不信任第三方机构访问用户的本地配置信息的安全性在用户的注册过程中系统能够计算出各用户的配置文件之间在存储空间中的差异程度以确定身份验证过程由于基于Homomorphic Encryption(HFE)技术和Fuzzy Hashing技术用户的敏感信息将得到全方位保护避免在广泛部署的云环境中发生泄露尽管如此在扩展用户基数以提升服务效率方面仍需进一步优化方案性能

在文献[17]中

该研究团队开发了一种基于有限域的高效完全同态加密方法,并将其应用于提升基于格的FHE方案的实际效率[19]。该方案实现了n次多项式映射功能,并帮助大型动画制作公司如《皮卡丘》等实现业务云端的安全迁移。在该方案下,云环境中的数据在外包和处理过程中始终保持完整性和安全性。然而,在实现这种多项式映射之前,尚未能够证明其生成器的存在。

Secure Data Storage and Management Schemes

大数据库隐私保护方案的研究显示

在对大数据执行存储与计算操作的过程中,在确保真实性和可用性的前提下,在线服务提供方倾向于将每个关键节点的数据复制存放在多个副本中以提升可靠性。采用通用的数据审核方案能够使用户无需遍历全部数据即可验证外包内容。

该研究团队开发了一种基于云端环境中的数据保护机制,在云计算平台中实现数据安全性的第三方审计系统[21]。该系统设计采用严格的安全性验证方法,在有效审核环节中确保参与评估的专业人员无法从中提取敏感信息,并未造成额外的数据泄露风险[21]。经过全面的技术评估与实验验证表明, 该方案能够实现安全性和高效性的同时, 还需在保证审计效率的前提下减少计算负担

Wei等人基于安全存储与安全计算之间的桥梁研究基础之上提出了隐私欺骗劝阻机制及一种新的安全计算审核流程[22]。进一步明确了两种关键的安全性问题:一种是云计算环境下的数据完整性保障问题(云存储安全性),另一种是基于云计算的服务准确性保障问题(云计算准确性)。其中前者旨在保证外部数据在云端存储过程中的完整性和不受外界干扰;后者则致力于保障外部数据在服务执行过程中的准确性。通过实验验证可知,在保障数据完整性和服务准确性的同时, 该协议不仅达到了预期效果还具有较高的效率。然而该方案显著提升了系统的资源消耗水平, 为了应对大规模数据处理的需求, 在设计过程中应着重减少算法的时间复杂度

刘等开发了一种新的公共审计计划,并命名为MuR-DPA [23]. 该方案采用了基于Merkle哈希树的新数据结构,并经过身份验证. 该方案在云数据库中多个数据副本的情况下,在完成更新验证和完整性验证任务时实现了低成本. 该方案不仅具备强大的安全机制来对抗不诚实的云服务提供商. 此方案支持完全动态的数据更新机制以及块索引身份验证功能,并能够同时进行多个副本数据的更新.

基于属性机制的数据加密被视为最佳选择来实现云环境中的数据访问控制。传统的ABE体系主要包括两种主要类型:基于密文策略的CP-ABE和基于密钥策略的KP-ABE。其中CP-ABE是一种通过绑定用户属性及访问权限与加密数据来实现细粒度安全控制的方法,在这种方案下用户的密钥会根据其特定属性生成;而在KP-ABE体系中,用户的属性信息始终用于描述相应的访问控制策略以及被加密的数据内容。

杨等开发了一种可表达、高效且可撤销的多权限CP-ABE访问控制方案[24]。该方案旨在防止半信任云环境中的数据泄露。他们采用旧访问策略的方式利用已加密的数据,并通过这种方式避免了加密数据传输的同时降低了用户的计算负担。当需要调整安全策略时,则无需对全部加密数据进行重新部署只需更新已撤销的相关属性即可显著降低通信成本这一优势使得该方案特别适合动态变化的安全需求场景但同时也面临一定的局限性即当用户试图通过ABE构建新的安全访问控制机制时会遇到诸多挑战因为一旦将敏感数据移交给第三方云服务提供商这些敏感信息就将不再保留在本地存储系统中因此仍然需要一种有效的方法来确保基于ABE的安全访问控制机制能够支持安全有效的策略撤销

在[25]文献中, 同一位作者开发了一种新型外包策略方案, 该方案基于Lewko和Waters的方法, 并针对云环境中大数据设计了一套基于属性的访问控制机制. 该系统通过动态地更新策略来实现对大数据的有效访问控制, 相对于之前的问题而言, [25]中的解决方案减少了密码数据传输的需求并降低了数据提供者的工作量.

Challenges in Big Data Security and Privacy

虽然大数据提供了巨大的信息价值,但它同时也带来了隐私与安全的风险.当数据被不当使用时,这将导致威胁,不仅影响个人,也威胁到公司的运营以及国家安全[26].基于上述文献综述,我们探讨了一些关于大数据安全性与隐私性的挑战.首先,我们寻求更高效率的同态加密方案.该方案可用于支持多方计算(SMC),从而提升其机密性和运算效率[15].然而,现有研究已提出多种方法以提高基于同态加密的支持多方计算(SMC)的效率.值得注意的是,针对完全同态加密的新方案依然具有重要意义,因为它们对于实现高效的安全乘法运算至关重要.因此,开发性能优越的同态加密算法不仅可以增强云环境中数据的安全性,还可以为支持多方计算所需的各种操作提供可靠的技术基础.

其次,在构建大数据安全方案时需兼顾扩展性和效率。参照先前回顾的方案发现,在[14、17、25]之外的其他方案中几乎没有涉及扩展性。基于大数据5 V特性中的容量特性分析可知,在现有研究中对扩展性的关注程度较低。

在第三部分中介绍了一种技术方案用于处理不同类型的数据架构。考虑到大数据本身的多样性特征,在实际应用中我们设计系统时可以充分支持多种数据格式并实现跨格式的数据转换与交互功能。目前关于大数据安全性和隐私保护的研究文献中很少涉及对这种多样性的深入探讨与理论支撑。显然这种复杂的数据架构设计问题不仅是一个技术难点而且是一个值得深入探索的重要课题。

第四部分强调,在大数据时代下确保数据安全与系统性能达到最佳平衡尚是一个未解之谜。大多数安全方案都会在数据处理与分析过程中对系统的性能产生影响。在云计算环境中保障数据处理的安全性和私密性需要投入巨大的资源(例如[22]中所述)。因此,在保障数据完整性的同时寻求效率与安全性之间的最佳平衡点至关重要。

基于我们的调查,在数据收集阶段深入探讨安全性和隐私保护方案的研究极为有限。在此阶段如何实现轻量级和实用的安全性方案可能是一个值得我们深入探究的研究课题。

Conclusions

我们的审查主要聚焦于实现大数据安全性和隐私的三种核心技术:SMC、同态加密以及安全的数据存储与管理方案。基于文献调研,我们探讨了许多激发未来研究方向的问题。

全部评论 (0)

还没有任何评论哟~