学习笔记——数据挖掘过程与方法 Data Mining
数据挖掘基本概念
数据分析技术是一种从大量数据中提取潜在且未知信息的技术
Non-trivial extraction of implicitly held, previously unknown, and potentially useful information from a large dataset.
与数据库技术的区别
数据库技术:从海量的数据中定位特定数据或是进行基础的数据统计分析。 比如说,在杂乱无章的大量数据中深入挖掘所需信息
数据挖掘无法仅仅依赖于已存在的那些信息。 比如,则是要努力弄清楚在杂乱的数据中如何找到有价值的信息。
数据挖掘过程

详细过程
- 熟悉应用场景并积累专业背景知识以明确研究目标。
- 获取并整合数据源以便开展后续分析。
- 对数据实施清洗与预处理流程以确保质量。
- 先提取关键特征然后减少维度以识别重要模式。
- 通过统计汇总分类识别关联等方法探索数据分析方向。
- 选择适合的算法并对数据开展深入分析。
- 系统地评估分析结果的准确性和可靠性。
- 深入分析关键指标结合可视化技术总结主要发现并得出合理结论。
- 将研究中获得的知识应用于实际问题解决中。
数据挖掘的数据类型
记录型数据
矩阵数据
文本数据
事物型数据
图表型数据
基因图表
网页链接
社交网络
化学式结构数据
顺序型数据
序列化业务

基因序列数据
时空数据
数据挖掘的任务
预言(Prediction Methods)
-用历史预测未来
描述(Description Methods)
-了解数据中潜在的规律
- 分类[ Predictive ]
分类知识提取旨在基于精挑细选的训练数据集进行学习和总结出通用性较高的分类规则,并能够普遍适用至更多案例。
在大量分类知识发现算法中最普遍采用的是分治算法(divide-and-conquer algorithms)
分治算法归纳生成树状结构,成为决策树。




决策树学习的目标
根据客户的属性特征,在同一类别中的实例数据属于同一组别。
- 聚类[ Description ]
Clustering Definition
Consider a collection of data points, each possessing a set of attributes, and a measure of similarity between them. Identify clusters where the similarities are high.
Data points in one cluster are more similar to one another
Data points in separate clusters are less similar to one another.
Similarity Measures:
-Euclidean Distance if attributes are continuous. 欧几里得距离
(一定要标准化)量纲的问题
对属性绝对地敏感(可能过于细分)
-Other Problem-specific Measures. 一些具体问题方法
余弦相似度计算
聚类的应用:
Market Segmentation 市场细分
Document Clustering 文本聚类
- 关联规则挖掘[ Descriptive ] Association Rule Discovery
支持度:两件事同时发生的概率
置信度:一件事发生时另一件事情发生的概率
在应用领域中:哪些营销与促销活动能够带动其他商品的销售?
Supermarket shelf management 哪些商品适合放在一起
- 序列模式发现[ Descriptive ] Sequential Pattern Discovery
Definition:

Examples

应用:
网页搜索时旁边的推荐
- 社团挖掘[ Descriptive ]

- 文本挖掘[ Predictive ]
SVMs机器 (Support Vector Machines)
SVMS stand out as a distinctive instance of methodologies, where spatial reasoning, elegant mathematics, theoretical guarantees, and practical use converge.
四个方面: 几何、数学、理论、实践
数据挖掘的一些挑战性问题
1.高维数据和高速数据流挖掘
超高维分类问题(数百万或数十亿的特征如生物信息数据)
超高速的数据流
2.有序的和时间序列数据
如何有效准确地聚类、分类和预测趋势?
用来预测的时间序列数据有噪声数据干扰
3.从复杂数据中挖掘复杂知识
图挖掘
不是独立对等分布的数据
结合数据挖掘和知识推理
知识兴趣度的研究
4.网络结构中的数据挖掘
社会网络
计算机网络分析(异常事件识别及管理):包括对大量以太网连接进行处理,并通过检测、跟踪和丢弃相关信息包来管理这些连接。
5.移动计算环境下的数据挖掘
移动计算环境下数据挖掘技术的发展方向
面向用户
构建人性化的人机交互方式
可以处理动态数据的主动式数据挖掘系统
移动计算环境下数据挖掘的主要应用有:
用户移动模式挖掘
基于数据挖掘的位置管理
6.生物信息的数据挖掘
新的状况产生新的问题
复杂的大规模生物信息学分析问题涉及多个领域如病毒疫苗开发计划核酸研究分子特性分析三维结构建模以及功能特性研究等
7.挖掘结果的可视化显示
8.安全、隐私和数据完整性
9.处理非静态、不稳定和成本敏感的数据
有的数据库高度不稳定
有很多成本和获益的信息,但是没有一个全面的模型来描述盈利和亏本
数据可能包含样本代入的倾向性
Conclusions:

