数据挖掘导论笔记第一章·绪论
绪论这一章节作为本书的第一章,总体分为以下几个方面:
1.0数据分析技术在社会各行各业的应用
具体而言,在工商业及医学科学领域中实施实践。无论应用于哪些行业,其核心总结如下:首先是对相关数据进行收集(信息),然后通过对这些数据进行分析与处理(从而获得事物的基本认识),以及随后采取的具体措施(以应对此类问题)。
1.1对数据挖掘的定义
属于大型数据库中的自动化信息提取过程,在数据库知识发现过程中起着不可或缺的作用。在这一过程中, 通过分析未加工数据以提取有价值的信息, 并涉及数据处理的技术手段(如KDD)。
数据挖掘技术的应用:探查大型数据库,预测观测结果,
下面是KDD的具体过程


1.2数据挖掘要解决的问题
1 可伸缩 算法的可伸缩可以处理海量数据集
提升可扩展性的策略:包括构建新型数据结构体系、引入抽样方法以及设计并行计算与分布式系统架构。
2 高维性 数据集以快速的速度发展着,并拥有丰富的特性,在这一过程中其计算开销会显著提升。基于低维数据的传统数据分析方法在这种类型的高维数据面前往往难以有效地应对。
3 异构属性的数据与非传统复杂数据 数据挖掘作为一种提升型的传统数据分析手段,在实际应用中必须应对异构属性的数据以及非传统类型的复杂数据。
4数据所有权和分布 构建分布式数据挖掘系统能够使所需分析的数据从单一站点或单一机构扩散至多个机构的数据源。
5 非传统分析
主要的挑战体现在以下几个方面:首先是要减少在分布式计算中必要的通信量;其次是要提高从多源数据整合 mined data 的效率;最后是要确保系统的安全性的同时保护用户隐私
1.3数据挖掘的起源
最初被视为KDD的一个中间环节,在学术界逐渐演变为计算机科学中的一个重要研究领域,并全面涵盖了数据分析的各个方面。这一领域不仅包括传统的数据预处理工作以及后续的数据挖掘与知识发现流程(即后续的数据后处理阶段),而且在研究方法上也进行了多方面的探索:基于统计抽样估计的方法及其假设检验框架;利用人工智能算法进行模式识别,并结合机器学习方法构建模型及学习理论框架。作为一门需要人机交互的技术学科,在实际应用中它对数据库系统的高效存储、检索与索引能力提出了严格要求;同时要求分布式计算技术能够有效地管理海量数据存储与计算资源。
数据科学和数据驱动的发现
数据科学的定义:涵盖研究与应用工具和技术以获取有价值的数据见解的一个跨学科领域。新兴的一个重要领域,在这里需要强大的计算能力和深厚的数学与统计学基础,并基于多领域的深入合作而发展。
数据驱动的方法则着重于从数据中深入揭示其内在规律和关联性,并被认定为在解决复杂问题方面表现出色的领域。
1.4数据挖掘任务
该任务的目标是基于其他属性的数据来推导出某个特定特征的取值。其中被推导出的那个特定特征被称为因变量或目标变量;而用于推导它的那些数据则被称为自变量或解释变量。
目标是识别概述数据中潜在联系的模式, 包括相关性分析的趋势识别以及基于聚类分析的数据分组异常现象的研究。其本质属于探查性任务, 通常会伴随后处理技术用于结果验证与解释。
其余的4种主要的数据挖掘任务:

预测建模旨在为目标变量建立模型,并将该目标变量作为解释变量的函数。两种主要的任务是分类与回归。其中分类适用于离散目标变量的情况;而回归则适用于连续目标变量的情形。
关联分析:旨在识别数据中具有强关联性的模式。这些模式通常以蕴涵规则或特征子集的形式呈现。因为搜索空间呈指数级增长,在这种情况下关联分析的主要目标在于以最有效的方式提取出最具吸引力的模式。
-
聚类分析:该方法旨在识别出相互关联的数据点群,并使同一簇内的数据点彼此之间尽可能地相似;同时该方法也可用于将客户划分为相关群体、确定显著影响地球气候的关键海洋区域以及实现数据压缩。
-
异常检测:该任务的目标是识别其具有明显差异于其他数据的观测值。这类观测值被称为离群点或异常点。基于此的算法旨在发现所有真实存在的离群数据样本,并避免误判正常数据为离群情况。
