Advertisement

Thinking in BigData(五)大数据之统计学与数据挖掘

阅读量:

今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。

在之前的博客中,我们从‘大’和‘价值’两个维度展开探讨了大数据主要源于哪些企业和其在不同企业中的应用情况。文章最后部分进一步阐述了数据挖掘的重要性,并突破传统定义视角下对数据挖掘的理解。鉴于时间限制,虽然文章标题为《大数据之统计学与数据挖掘》,但整体内容未涉及相关定义,计划后续有机会再深入探讨。

大数据之统计学与数据挖掘

该文献来自《Statistics and Data Mining: Intersecting Disciplines》一书,作者是David J. Hand。该文献探讨了统计学与数据挖掘之间的区别,并深入阐述了大数据处理的基础技术概念,为读者提供了宝贵的入门资源。

统计学与数据挖掘的区别:

共同目标:发现数据中的结构。

DM的主要特点在于其融合了其他领域的思想、工具与方法。其中最突出的是计算机科学的相关内容包括数据库系统和机器学习算法等,并且还有些研究者则专注于不同的方向。作为一门严谨的学科,统计学最初的核心理念就是记录和描述现实世界中的现象。然而,在商业实践中统计方法的应用已成为不可或缺的一部分。

数据挖掘:主要关注海量的数据驱动模型。统计学家通常会忽视对数据进行详细分析,他们倾向于过于专注于复杂的研究模型而非识别明显模式。这种做法可能导致研究者难以适应高技术岗位而技术专家更适合研究工作之间存在隔阂。实际上海量的数据中可能存在不可预知但具有重要价值的模式,这就是数据挖掘的核心任务。

统计学的性质:

相对传统的方法正在逐渐转向更加灵活的模式。不过,在追求创新的过程中,“建立在数学背景下的统计学方法趋向于更加精准的发展方向”。只有在确保其准确性的情况下,“我们才可能真正揭示真相”。然而,“如果过于追求精度,则会带来负面影响”。对于应用这类方法的领域而言,“首要考虑的因素是其可靠性和有效性”。相比之下,在计算机科学和机器学习领域中,则更倾向于通过经验来推动发展。

虽然统计学的一些分支侧重于描述性分析,并且也会存在一个根本问题就是要通过观察样本情况去推测整体特征的问题。这也成为数据挖掘者必须完成的任务之一。DM的特性是处理大数据集, 但因为要考虑计算可行性, 我们常常只能通过对样本进行分析来推断这个样本所代表的整体特征,这就是所谓的"样本估计整体"过程。然而,在数据挖掘过程中通常可以直接获得总体的数据情况,比如在一个公司里的情况是所有的职工都有详细的人事记录,在某行业的情况是一些典型客户的完整资料等等。因此,在某些情况下进行这样的推断就失去了意义,因为建立起来的统计模型通常是基于一系列概率描述(如:一些参数接近于零,则会在模型中删除这些特征变量)。其含义是在统计学习分类时早期的数据预处理阶段就会对那些发生概率极低的数据段进行剔除处理,但在总体数据可以直接获取的情况下利用数据挖掘技术进行分析就失去了意义

在这里,我们可以从多个维度对应用参数进行评估:首先是对数据的充分描述。实际上,则更多地关注模型是否合适而非其可行性的考量 ,因为通常情况下(尤其是在处理实际数据时),容易获得模型(这一问题常困扰着数据分析者)。例如:在探索规律 时,我们经常依赖于单一特征的匹配度指标 (基于分支定理的应用)。然而,在运用概率陈述时 ,这种特征可能无法得到有效提取(我们稍后再深入探讨这个问题)。

统计学和数据挖掘的核心是” 模型”

“模型”=“变化”

一方面:统计学方法主要建立在对变量间关系的研究基础之上。另一方面:然而,在某些情况下这些方法虽然用于整体描述数据却往往缺乏逻辑依据。例如,在分析信用卡业务时可能会将收入作为独立变量来考虑;这虽然基于某些基础但其可靠性值得怀疑。相比之下,在研究过程中若能逐步引入那些具有潜在解释作用的关键因素则有助于构建预测性较强的模型;这一假设虽然基于某些基础但其可靠性值得怀疑。而当我们运用数据挖掘技术探索潜在模式时;我们通常会聚焦于后者——即创建能够获得较高预测价值的具体模型。

当前的统计学研究主要围绕建立和优化模型展开;尽管计算过程相对重要但并非首要任务;研究者的主要目标在于构建高效率且具预测力的模型;通过这一目标能够显著提升其拟合效果判别能力;在数据挖掘领域(DM)这一关注重点与传统统计学有所不同;在DM领域中评估标准成为数据分析的核心考量因素;同样值得注意的是,在传统的统计方法论中也是如此;基于这些经典的方法论框架(这里暂不多介绍)

相较于统计学领域而言,在数据挖掘过程中准则所占据的重要地位也就不足为奇了。
数据挖掘始于计算机科学却又深深植根于统计数学。
在实际操作中,
由于数据集的规模直接影响着传统统计方法难以有效应对解决数据挖掘问题,
因此不得不进行重新设计。
另一方面,
准则不仅在理论研究和应用实践方面都取得了长足的进步,
而且其应用领域也在不断向机器学习("自学习"的过程)扩展。

在许多情况下**(实际上一个人无法完全确定某个理论),数据挖掘的过程更多地依赖于偶然发现非预期但有价值的信息这一特点。这种本质上的实验性与确定性分析存在显著差异。(确定性分析关注最佳拟合模型)然而,在这种背景下建立推荐模型(这个模型可能无法充分解释观测到的数据),而实验性数据分析对于统计学并非全新的概念**——或许这是偶然实验性分析被归类为独立领域的起点——而这已被视为数据挖掘的基础部分之一。所有这些观点都是正确的;但是事实上,在面对数以百万计的随机因素时(所处理的数据量远超常规统计方法的标准水平),传统统计工具可能会出现明显不足(在这种情况下导致传统统计方法可能出现瓶颈)。

因此在这种情况下二者之间的合作不仅是简单经验传递的过程更是基于不同知识体系背景下的智慧交流过程。”

数据挖掘:

数据挖掘的性质:

当仅拥有1000个参数时,在对于统计学家而言已经是一个很大的挑战。但对于公司面对海量数据的情况而言,则显得微不足道。
显然,在面对如此庞大的数据量时,则亟需开发一种不同于传统统计分析方法的新方法。
这种情况下就暗示着计算机将在数据分析领域发挥关键作用:通过自动化处理和数据分析技术的应用,在大量数据面前能够高效提取有价值的信息。
这一挑战促使我们发展出一套名为ETL(Extract, Transform, Load)的过程。
其中,在这个过程中扮演关键角色的是数据分析工具:它们充当了从 raw data 到 actionable insights 的桥梁,并负责从大量原始数据中筛选出有价值的信息。

让我们重点关注由于数据质量问题导致的异常模式出现的风险 。这一问题与数据质量 直接相关。所有数据分析的结论都依赖于数据质量 。GIGO理念意味着输入低质量的数据会导致输出低质量的结果,并广泛应用于各个领域。即使是经验丰富的数据分析专家,在面对低质量数据时也可能无法提取有价值的信息。在追求极其微小且不寻常的模型时(即寻找百万分之一的概率模型),即使是最细微的数据偏差也会对结果产生显著影响。对于大型复杂的数据集而言,在这种情况下尤其需要注意潜在的风险。

此类问题可能从两个层面产生。首先,在微观层面(个人记录),特殊属性可能丢失或输入错误。举个例子来说,在某个案例中,由于数据挖掘者不知情导致缺失的数据被错误记录为99而作为真实值处理了。其次,在宏观层面(数据集受选择机制影响),如交通事故这一现象则是一个很好的例子来说明这种歪曲现象的表现形式。严重程度高的事故往往能更精确地记录其发生情况;而较轻的或无伤害事故的记录则会存在较大偏差甚至缺失;因此,在大量数据中存在大量未经记录的情况就可能导致这种歪曲现象的存在——这可能会对结论的准确性造成严重偏差

统计学较少重视实时分析这一议题 ,而数据挖掘问题通常会需要用到这类技术。例如,在银行业每天的各种事务都会发生** ,无法等待三个月才能获得正确的分析结果** 。类似的挑战同样存在于随着时间演变的整体数据分析中。

到这里,我想大致阐述了数据挖掘的概念.那么统计学又是什么呢?然而这些概念之间存在一定程度的重叠,但通过具体分析我们能够发现统计学与数据挖掘之间的差异.

然而, 数据挖掘者同样不能坚持完全的非统计学观点. 例如, 在实际操作中遇到的一个问题是: 统计学家通常会将数据视为按照变量交叉分类的平面表, 并储存在计算机中处于等待分析的状态. 如果这些数据量较小, 则可以直接加载到内存中. 然而, 在许多实际的数据挖掘问题中, 这是不可能的. 大量的数据往往分布在不同的计算设备上. 最极端的情况是这些数据分布于全球互联网的不同节点上, 导致从这类问题中抽取一个简单的样本变得相当困难.

在阐述数据挖掘技术时, 我认识到以建立模型为核心和通过模式识别为手段能够更清晰地区分两者之间的关联性. 模型概念在统计学中处于核心地位, 在构建模型的过程中, 我们主要致力于概况所有数据并识别其分布特征. 这样的"全面"模型, 如对一系列数据进行聚类分析、构建回归预测模型以及应用决策树进行分类等实例. 相反地, 在模式识别过程中, 我们应着重关注于识别微小差异并深入分析异常行为特征.

在EEG轨迹中零星出现的波形特征与信用卡使用过程中出现的异常消费行为构成了研究的重点对象。这两种实验本质上都是数据挖掘的核心目标--试图从杂乱无章的数据中提取出具有价值的关键信息。然而,在另一种实验类型中同样具有重要意义:当关注的是构建全局模型框架时(即基于一个容量为10万的数据集),所选取的样本是可取的(因为基于容量达到千万的数据集同样具有等效性)。值得注意的是,在模式识别领域仅依赖单一数据样本可能会导致遗漏某些重要情况

尽管传统的统计学方法主要用于分析定量的数据(...),而数据分析领域(尤其是)涉及更为复杂的非数值型信息处理(如)

数据挖掘分支:

数据挖掘分支,主要分为:分类、聚类、关联、异常处理

分类: 通常称为通过分析和处理给定的训练集数据来构建一个特定的预测模型的过程。将训练数据作为输入,并通过计算生成该模型作为输出结果。该模型随后被用来执行对目标数据库中元组级别的分类任务。算法主要包括决策树、神经网络、基于距离度量的方法以及统计分析等技术。

聚类: 以多个影响因素为基础进行分析研究的方法称为多元分类技术。该方法旨在将没有预先设定类别标签的数据样本归纳为若干个有特征的群体(即所谓的簇)。这些簇内部的数据点应尽可能表现出高度的一致性, 而不同簇之间的数据则应显著地区别开来。

即为关联。即通过分析海量数据中的项目组合关系来揭示各项之间的相互联系。其中最经典的算法便是Apriori算法(...),它采用逐层迭代的方式首先生成候选项集(candidate itemset),然后对该候选集合进行过滤以去除非频繁项;随后提取频繁项集(frequent itemset);接着以此类推,在反复筛选的过程中不断优化候选集合以降低规模直至获得最终结果;通过过滤减少候选项集从而提升整个过程的效率水平。

  • 异常诊断的主要内容是对异常数据进行处理。
  • 在数据分析中区分Outlier和Noise是非常重要的。
    • Outlier指的是那些真实的案例与其他常规实例相比具有显著差异的情况。
    • Noise则代表了错误或不准确的数据来源,在实际应用中通常需要在数据预处理阶段进行清理,并通过相应的技术手段来识别并去除这些干扰因素。

数据清理: 一般指两方面。一、FeatureSelection(特征提取) ,这是机器学习中常见的操作之一,在去除不影响模型性能的关键属性的同时能够提高算法效率并简化计算流程。二、Instance selection(示例选择) 。这就是要去除与研究目标无关的数据集。如在分析男性行为模式时不应将女性数据加入分析以避免误导结果

数据挖掘切入点:

与机器学习不同的是,在数据挖掘中采用自底向上的方法。
这一技术特别关注于数据分析中的密度特征、维度结构以及潜在的数据噪声和分布模式,并且注重分析各数据点间的相似性程度。
其核心目标就在于在一个包含行为实例和属性的大表格中填补缺失记录并修正错误。
在分析数据时,在考虑其密度特性时就需要运用针对稀疏矩阵设计的方法。
降维处理是其中一项重要操作,在这种情况下通常会使用诸如奇异值分解法(SVD)、主成分分析法(PCA)等降维手段。
如何处理异常值这一问题就直接关系到该技术能否成功实现分类目标。
评估两个样本之间的相似程度这一过程实际上也就等同于研究两个样本之间距离大小的问题。
值得注意的是,在这种情况下所使用的距离函数会根据具体的数据类型有所不同。

譬如欧几里得距离适用于衡量低维空间中的数据特征 ,因为在理论上讲,在高维空间中任意两个点之间的欧式距离往往会变得非常接近。此时它们之间的夹角不会发生变化,因此余弦相似度表现出良好的特性。然而它的一个缺点是无法衡量向量的长度。有时统计相关性(correlation) 也可以作为另一种距离函数来使用;不过这仅仅能反映线性关系,在处理像Y=X²这样的非线性数据时会得到X,Y的相关性结果为零的原因是因为它们之间呈现的是二次相关关系。

在涉及多个特征的数据挖掘任务中进行数据归一化处理是一个必要步骤。我们可以预期,在未进行归一化处理时可能会导致数值范围较大的特征主导预测结果,在相同权重的影响下其对预测结果的影响程度与数值范围较大的特征相关。这种情况下数值范围较大的特征会对预测结果产生显著影响。

引: 中科大 ·龙星计划《数据挖掘》

讨论:

数据挖掘 并非单纯的实验操作常被误认为是一次性行为 。实际上它是一个持续不断的学习机制 (尽管所使用的数据集是固定的)。通过特定视角审视数据有助于理解现象 ,而采用关联性分析可能更能贴近实际情况 。关键在于 ,除了少数特殊情况外 ,我们通常难以判断哪种模式更具价值 。数据挖掘的本质是发现非预期的模式 ,同样这些模式也必须通过非预期的方法来发现 。

数据挖掘的独特性在于:它可被视为从一个相互关联的观点认识并得出结果的过程。
尽管许多数据挖掘的结果是可以再次利用的,
但基于此事实却并不能否定我们已经发现其价值。
因为缺乏这些实验的支持,
人们可能根本没有想到这些现象的存在。
实际上那些能够依据过去经验合理解释其价值的结果才是真正有价值。

就目前而言,在数据挖掘领域仍存在一个潜在的机会。这一机会主要体现在基于大数据集构建的可能性模式上。然而, 机遇本身往往伴随着潜在的风险。即使是通过完全自动化手段收集的数据也会存在错误的可能性,而与人类相关的数据(如交易和行为数据)更容易出现错误。这很好地解释了,在大多数情况下,从大量数据中发现的‘非预期结构’本质上是无意义的。(当然,‘预期结构’可能是有意义的:如果出现异常情况,可能会干扰数据分析目标,最好还是先深入了解这些潜在问题)。与此同时,如何确保所观察到的模式是真实存在的以及如何至少为这些模式提供事实依据是一个重要问题。“真实性”的核心在于确定这些结果是否是由随机样本巧合引发的概率事件所致,而隐藏背后的原因则需要更多的统计分析和专业研究来揭示其内在规律。

在最近一段时间内阅读了一篇文章,在数据挖掘领域具有较高的参考价值。然而整体感觉有些艰涩难懂。于是萌生了用自己的语言进行梳理的想法希望能够将其中的一些概念梳理得更加清晰透彻如有不当之处后续还会不断优化和完善这个总结内容

这份文章作为今天收到的最后一份礼物送给亲朋好友。明天早上需要赶火车回家,请提前准备行程安排好时间!加油!

** **Write in Beijing

总结参考文献:

http://www.36dsj.com/archives/5114

Copyright ©BUAA**
**

全部评论 (0)

还没有任何评论哟~