基于大数据挖掘----浅谈大数据与大数据挖掘
基于大数据挖掘----浅谈大数据与大数据挖掘
一、大数据技术
1.1大数据的定义
大数据是指难以通过传统系统在特定时间段内收集、存储和处理的数据集合,在某些方面需要新型方法实现更高效率决策、深入分析以及流程优化能力,并包含海量数据资产。这些数据资产具有高增长率和多样化特征,并旨在以经济高效的方式从大量元数据中提取价值的技术架构。
简单来说,大数据就是数据分析领域的新兴技术,在各种数据源中快速提取有价值的信息。
1.2大数据的特点
可将大数据的特点总结为:其一为存储量巨大(volume),从TB级别跃升至PB级别;其二为类型丰富多端(variety),涵盖文档型、多媒体型等多种具体类型;其三为生成速度快(velocity),在高速网络环境下处理海量数据成为主流;其四则具有显著的应用价值(value)。
1.3大数据的发展过程
大数据的发展与企业信息化发展紧密相连。上世纪80年代末至90年代初期间,在中国一些行业率先将核心业务数据电子化存储并应用到管理中去;20世纪90年代末至21世纪初之间随着信息技术发展迅速推动了企业信息化进程;随后IT技术的进步使得越来越多的企业开始将管理活动数字化、智能化;从2010年以后开始各种类型的数据逐步被采集并建模分析;基于数据挖掘技术的应用使得预测分析技术也得到了广泛应用与发展。
回顾过去几十年间数据价值的演变过程发现:过去的大数据相较于如今显得规模相对较小;而当前的数据规模在未来若干年也将不再具有足够的规模优势;一些难以想象的数据特性(如容量、处理速度等)随着时间推移都将被重新定义;但无论时代如何变迁数据分析方法和技术始终未变;这也是利用数据创造附加价值的基础所在。
1.4大数据的意义和价值
在战略层面上来看, 大数据技术的价值不可小觑。然而, 大数据技术的核心并非仅仅是存储海量数据, 而是在于对其深入的专业化处理。若将之与产业相提并论, 则其关键特征便在于对数据进行系统的加工处理。通过对大量散乱的数据进行系统性处理与精炼, 我们得以从中挖掘出潜在的价值。
二、数据挖掘
2.1数据挖掘的定义
数据分析旨在从大量且复杂的现实世界中的非结构化数据中提取潜在有用的知识与模式过程并整合了统计分析数据库管理和人工智能算法使其成为跨学科的技术研究方向。作为一种重要的数据分析手段数据挖掘通过海量数据进行分析来提取有价值的信息向用户提供决策支持系统所需的数据分析结果并展现出广阔的前景与应用潜力。
2.2数据挖掘的前提–数据采集
大数据技术第一步就是采集数据。数据采集的多样性、完整性、准确性,决定了数据挖掘的成果以及后期预测的可靠性。
在大数据时代,数据采集有以下三个特点:
1.数据采集以自动化手段为主,要尽量摆脱人工录入的方式。
2.采集内容以全量采集为主,要摆脱对数据进行采样的方式。
3.采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式。
从采集数据的类型上看,不仅要涵盖基础的结构化数据,还要逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。
移动互联网的兴起让移动设备的数据采集技术有了迅速发展,目前使用最多的为Android或IOS的采集 SDK,这种技术能帮助统计 APP 的基础数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以采集。
2.3数据挖掘的步骤与方法
数据挖掘的一般步骤为数据集选取、数据预处理、数据转换、数据建模、结果分析改进等。通常程序为:问题分析;提取、清洗与校验数据;创建与调试模型;数据挖掘模型维护。
在数据挖掘的过程中,需要挖掘的数据类型种类繁多, 可能是有结构的数据,如组织成表结构的数据;也可能是无结构的数据, 如文本数据;还可能是半结构化的数据,如Web页面数据;甚至是图像或视频等多媒体数据。由于挖掘的数据类型多样,因此其涉及的技术方法很多。
根据挖掘任务可分为五种:分类与回归、聚类分析、关联分析、时间序列分析和偏差检测。在数据库挖掘中,C4.5(决策树算法),遗传算法等,其中决策树方法与神经网络方法是其关键方法。
而挖掘方法又可以分为:机器学习方法、统计方法、神经网络方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
在现在信息爆炸的时代,数据挖掘的信息源中的数据都是海量的,并且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成为数据挖掘发展过程中一个必须解决的问题。
2.4数据挖掘的功能
在大数据时代背景下,在大数据环境下进行的数据挖掘具有无比重要的意义。通过专业分析海量数据的信息资源,在现有商业模式及企业决策中提供相应的数据支持。在当前商业环境中,在大多数大型企业中所提出的管理建议多是以数据分析所得出的结论作为理论依据。因而利用大数据技术进行的数据挖掘能够实现对未来趋势及人类行为的预测。具体而言主要包含以下五个方面的功能:实时追踪市场动态与消费者行为变化;深入发现各变量之间的关联性;系统性地归纳整理同类事物的特征;全面阐述特定对象的本质属性及其核心特征;精确识别观测结果与预期值之间存在的显著差异
2.5数据挖掘的应用
随着信息技术的不断发展, 数据挖掘技术逐渐发展成为一门独立的学科. 该技术为了满足企业对海量数据分析的需求, 开发出了一系列复杂的数据处理方法. 在各个行业领域中, 我们都可以看到这一技术的身影.
金融领域需要收集和处理大量数据, 通过对这些数据进行分析研究, 可以帮助企业识别潜在客户群体或消费趋势, 同时也能预测金融市场动态变化.
如2009年所示, Google通过分析美国人在2009年最常用的500万个搜索词, 将其与美国疾病中心记录下来的季节性流感病例关联起来, 开发了一个专门的数据模型. 这一创新方法成功预测了当年冬天可能出现的流感疫情及其地区分布情况. 这种精准预测对于优化医疗资源分配及制定有效防疫策略具有重要意义.
市场部门利用数据分析技术进行市场定位与消费者行为分析, 并据此制定精准的市场营销策略. 比如农夫山泉公司就利用大数据系统来解决如何摆放水箱以促进销售的问题; 同时还研究气温变化对购买行为的影响以及竞争对手新包装设计对销售量的具体影响等关键问题.
制造业则主要运用数据分析技术实现设备故障诊断与优化维护方案制定等智能化管理措施.
三、基于大数据的数据挖掘
总体而言,大数据挖掘涵盖了基于内容和基于结构两大类别的方法。在数据分析领域中涉及海量的数据进行深入研究的技术被称为大数据分析技术。在IT行业快速发展的背景下,“大数据”一词备受关注,在这种背景下衍生出来的一系列技术如数据仓库建设、数据安全防护、数据分析应用以及各种形式的数据挖掘活动逐渐被行业专家所聚焦并深入探讨。
3.1基于内容的大数据挖掘
基于内容的大数据挖掘涵盖网络搜索技术和实体关联分析等方面的研究工作。
3.2基于结构的大数据挖掘
该平台以用户作为节点,并通过连接表示两人之间的互动关系构建而成;它不仅反映了用户间的实际社会联系,并且是信息交流的重要平台。在社交网络中,默认情况下个人通常会因自身的原因而形成一个紧密相连的群体;从而形成一个内部联系紧密而对外联系相对分散的社群;这种社区结构是社交网络系统中普遍存在的特征之一;其存在对于提高大规模数据搜索效率、推动网络演进以及促进信息传播具有十分重要的作用。
四、大数据挖掘的发展趋势
解释
4.1未来大数据的发展趋势
数据得到广泛的应用已成为企业和社会的重要战略资源,并成为大家争夺的新关注点。
1.商业智能
企业的决策转变将延续到未来,在提高效率的同时降低成本。这一转变造就了基于大数据的企业商业智能,并对中小型企业及初创公司尤为重要。这一趋势将持续下去并持续发展下去。
2.数据分析将包含可视化模型
数据可视化和数据发现将成为推动企业发展的关键趋势之一。随着数据发现范围的扩大,它不仅涵盖了数据分析与关联分析,还包含了对信息呈现方式的研究与探索。 visualization models are increasingly important for extracting meaningful insights from large datasets.
3.机器学习
机器学习算法作为人工智能的核心技术,现已被广泛应用于实时广告投放、模式识别、欺诈检测以及医疗健康等多个领域,并将在大数据时代展现出更高的智能化水平。
4.2未来数据挖掘的发展趋势
在许多领域中研究数据挖掘都是当前最为关注的话题之一
五、结论
本文系统地阐述了大数据技术的基本概念、核心特征以及发展历程,并对其在社会经济发展中的重要意义进行了深入分析;同时全面探讨了数据挖掘技术的定义、实现步骤及其实际应用方法,并总结归纳出大数据时代下相关技术的发展趋势与未来展望。
在这个数字化转型的关键时期中,在传统精确性思维受到挑战的前提下,“相关关系分析”的应用逐渐成为主流方法。“相关关系分析”的优势在于其高准确性和快速性的同时能够有效规避偏见干扰;基于此建立的数据预测模型构成了大数据分析的核心内容。
随着信息技术的快速发展与应用需求的持续增长,在各个领域产生的海量数据呈现出日新月异的变化态势;面对复杂多变的社会环境以及日益繁杂的数据类型处理问题,“数据挖掘技术”作为一种新兴的技术手段为解决复杂大数据问题提供了切实可行的解决方案。
DT时代的到来带来了新的机遇与挑战;通过应用相关算法提升数据分析效率与决策能力已成为当前亟需解决的重要课题;相信在这一过程中通过对现有技术和方法不断优化改进我们将能够实现更高水平的数据挖掘应用目标。
研究工作始终以获取高质量的数据作为起点;通过深入的数据分析挖掘工作将有助于揭示隐藏于海量信息背后的潜在规律与关联性;
