Data Mining:(1)走进数据挖掘
- 作为本系列博客的第一期,《走进数据分析与知识发现》带您深入浅出地认识数据分析与知识发现的本质内涵。
- 本博客将全面阐述数据分析的核心理论基础与实践应用案例,并提供丰富的参考资料以助您快速掌握数据分析技能。
文章目录
-
DM理论*
-
为何发展
-
系统性地提出
-
如何界定
-
遵循一个流程
-
相关概念
-
相关领域(不可更改部分)
-
应用范围(不可更改部分)
-
DM Algorithms
-
- 基本特征
- 基本分类
- 基本算法
-
-
学习资源
-
- 推荐书籍
- 知名期刊
- 顶级会议
- 优秀社区
- 领军人物
- 工具选择
- 数据资源
-
DM Theory
缘何兴起
数据挖掘是在近几十年才被人们提及并不断受到夸大宣传的领域,并已成为风靡网络的热门话题。了解一样东西之前,请先弄清楚它的起源。不要因为走得太远而忘记了为什么出发 这句话放在当前语境中非常贴切。(虽说我们还没走(o°ω°o))。
- 数据量大 :当数据量达到一定程度时,它才具备创造价值。如果仅是一两百条甚至几行记录的数据,在短时间内通过简单浏览即可获取所需信息,则无需依赖复杂的数据挖掘技术。人类社会中工业化、信息化进程的加速发展以及物联网技术的广泛应用,在很大程度上推动了海量数据的快速产生。此外,在全球范围内,“数据开放运动”以及相关的“数据开源计划”等举措也极大地丰富了 available 的数据资源库。举个例子来说,在阅读这篇博客文章时就已经会生成大量与之相关的元数据点:包括但不限于你的兴趣偏好、每日上网时间、网页浏览频率、点击次数、停留时长等等。我们已经身处在一个被海量信息包围的时代。
- 数据存储 :即便拥有足够规模的数据资源但如果缺乏相应的存储设备和技术支持,则无法实现有效的挖掘利用功能。“太阳每天都在释放巨大的能量但却始终未能被充分利用”的现象同样适用于大数据存储领域。近年来,“数据库技术和数据仓库技术”的持续发展使得海量信息得以更加高效地存储和管理这也是推动现代数据分析与挖掘技术不断普及的重要原因之一。
- 信息贫乏 :尽管我们拥有丰富的海量 数据资源 但依然无法从中提取出有价值的信息。“Data Rich, Information Poor”的现象普遍存在在实际应用中因此我们需要依赖专业的 数据挖掘 技术来帮助我们发现并解析出隐藏在海量信息背后的有价值的内容。
正式提出
在1989年8月于美国底特律举行的第11届IJCAI-89大会上,由Gregory Piatesky-Shapiro组织的专题讨论会围绕"数据库中的知识发现"(即"KDD:Knowledge Discovery in Database ")这一主题展开探讨。随后的1991年、1993年以及1994年期间,在此基础上又继上届之后,在加拿大蒙特利尔市举办了首届会议。该会议不仅扩大了规模,并且在加拿大蒙特利尔市举办了首届会议。与此同时,在这次会议上提出了数据挖掘的概念,并由Usama Fayyad首次提出这一概念。
继上届之后,在加拿大蒙特利尔市举办了首届会议的同时,在这次会议上提出了数据挖掘的概念。
如何定义
关于数据挖掘定义的看法存在多样性
- Usama Fayyad :数据挖掘涉及从海量杂乱无章的数据中提炼出具有价值的信息与模式。
- SAS软件研究所:基于特定业务需求对企业海量数据进行深入分析以发现潜在规律并构建模型。
- 维基百科:借助半自动化的技术和先进的算法从海量散乱的数据中萃取具有价值的信息与模式。
可以概括为:
- 数据挖掘基于半自动化或全自动化技术,在海量不完备且含有噪声的数据中识别出隐藏于其中的有价值的信息与关联。
- 从商业角度来看, 数据挖掘是一种新型的商业信息处理方法,其核心是从经过预处理后的商业数据库中提取大量经过转化的业务数据进行分析与建模,最终获取辅助商业决策所需的关键知识。
走个流程
- 数据挖掘流程至今尚未形成统一标准, 大体一致。
- 在此基础之上, 我们将依据Han Jiawei先生在其著作《Data Mining: Concepts and Techniques》中所提出的定义来进行阐述:
- Data Cleansing (去除噪声或不一致的数据)
- Data Integration (整合多种数据源)
- Data Selection (选取数据库中与分析任务相关的数据)
- Data Transformation (将数据规范化为适合挖掘的形式)
- Data Mining (应用各种算法提取数据模式)
- Pattern Evaluation (利用度量方法识别真正有趣的模式)
- Knowledge Representation (通过可视化技术和知识表示手段向用户提供挖掘结果)
- 在此基础之上, 我们将依据Han Jiawei先生在其著作《Data Mining: Concepts and Techniques》中所提出的定义来进行阐述:
相似概念

相关领域

应用场景
- 公共安全保障(Public Security)
- 医疗与健康的结合(Health Care)
- 城市规划与设计(Urban Planning)
- 基于位置的服务(LBS, Location-Based Services)
- 精准营销策略(Targeted Marketing)
- 情感分析技术(Sentiment Analysis)
- 社交网络平台(Social Networks)
- 运动管理系统(Sports Managing)
- \cdots\cdots
DM Algorithms
基本特征
- 有效性:该方法能够符合数据挖掘的需求,并能够提取有价值的信息与知识。
- 可伸缩性:一个算法具备良好的可伸缩性是指在面对小规模与大规模的数据集时均能表现出相似的效果。即当系统资源如内存与磁盘空间充足时,在处理更大规模的数据时其运行时间应呈现近似线性增长的趋势。
基本分类
- 基于学习方式的分类:
- 监督学习(有导师学习)
输入数据中有导师信号,以概率函数、代数函数或神经网络模型为基函数模型,采用迭代计算方法,学习结果为函数。
- 监督学习(有导师学习)
-
无监督学习(Unsupervised Learning) 在输入数据中没有 supervisor 信号的情况下,该算法通过聚类方法进行建模。通过这种方法得到的结果被划分为不同的类别。常见的无监督学习方法包括自组织学习、聚类分析以及竞争性学习等多种技术。
-
强化学习(增强学习)
基于环境反馈(奖惩信号),采用统计和动态规划技术的一种学习方法。
基于数据形态的分类中包含结构化学习这一小节。在这一小节中:
采用结构化数据作为输入对象,并通过数值计算与符号推演来进行分析研究。
典型的结构化学习包括:
神经网络模型的应用,
统计分析的方法,
决策树模型的应用,
以及规则提取技术等技术手段。
以非结构化数据作为输入的系统或模型称为非结构化学习系统。其典型实现方式包括但不限于以下几种常见的非结构化学习方式:类比学习(Analogical Learning)、案例学习(Case-Based Learning)、解释性推理(Explanatory Reasoning)、文本挖掘(Text Mining)、图像检索与分析(Image Retrieval and Analysis)以及Web内容分析(Web Content Analysis)等。
以学习目标为基础划分分类 1. 概念学习:旨在聚焦于形成概念的学习方式。常见的包括通过示例进行学习
2. 规则学习
即学习的目标和结果为规则。典型的有决策树学习。
3. 函数学习
即学习的目标和结果为函数。典型的有神经网络学习。
4. 类别学习
即学习的目标和结果为类别。典型的有聚类分析。
- 贝叶斯网络学习
即旨在明确贝叶斯网络的学习目标与结果,并将其作为研究的核心内容展开探讨。其中主要涉及两个核心环节:结构学习与参数学习
基本算法
- 分类器(classification algorithm)
- 神经网络(neural network)
- 聚类方法(clustering method)
- 关联规则挖掘(association analysis)
- 回归模型(regression model)
- 文本挖掘(text mining)
- 推荐系统(recommendation system)
\cdots\cdots
Learning Resources
推荐书籍
- 《统计学习方法》由李航编写
- 周志华所著的《机器学习》
- 《数据挖掘:概念与技术》由韩家炜等著
- 《数据挖掘导论》由陈封能(TAN Pang-Ning)等著
著名期刊
- 《Data-driven knowledge extraction and analysis》
- 《Intelligent data engineering and automation》
- 《Neuro-inspired learning systems and applications》
- 《Information theory-based scientific exploration》
顶级会议
- Iter national Congresses on Knowledge Discovery
- Iter national Congresses on Knowledge Engineering
- Iter international Congresses in Machine Learning
- Iter international Joint Congresses on Artificial Intelligence
- Pacific-Asia Congresses in Knowledge Discovery and Data Mining
- Iter ACM SIGKDD Congresses in KnowledgeDiscoveryandDataMining
优秀社区
- 数据科学平台
- 科技新闻网站
- 计算机科学分会
领军人物

工具选择
- 谷歌搜索、谷歌学术
- 维基百科
- Python、R、Matlab
数据资源
- 机器学习数据库(UCI)https://archive.ics.uci.edu/ml/index.php
- Kaggle平台https://www.kaggle.com/datasets
- 知识发现与数据挖掘网https://www.kdnuggets.com/datasets/index.html
- 数据天地https://www.datatang.com/index.html
- 官方统计数据网
- \cdots\cdots
