Advertisement

Data Mining数据挖掘课程记录

阅读量:

今年是我第一次数据挖掘,数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。然而今年的课程并不是特别关注挖掘的算法而是概念。下面做个总结,也当为我的期末复习。

Introduction

数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤 ,本质上属于机器学习的范畴。

The concept of extracting previously unknown and potentially usefull, interesting knowledge from large sets of data. analying data that wasn’t originally collected for analysis.

the big data

collect large amounts of data
administrative purposes
experience

goals

prediction/forecasting
diagnostics
optimization

2 streams

knowledge discovery
prediction

taxonomy of data mining

supervised : it maps an input to an output based on example input-output pairs and infers a function from labeled training data consisting of a set of training examples. It means some data is already tagged with the correct answer and can be compared to learning which takes place in the presence of a supervisor or a teacher.
examples: classification, regression
differences :
a. In a supervised learning model, input and output variables will be given. In unsupervised learning model, only input data will be given
b. In a supervised learning model, algorithms are trained using labeled data. a. In an unsupervised learning model Algorithms are used against data which is not labeled
c. Supervised learning is a highly accurate and trustworthy method. Unsupervised learning model is less accurate and trustworthy method.
unsupervised : clustering, pattern mining

supervised/unsupervised

在这里插入图片描述
这里用中文再解释解释
从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。

预测性包括 classification regression
Classification 输出变量是离散型,常见的算法包括:贝叶斯 决策树 逻辑回归 KNN SVM 神经网络 随机森林
Regression 输出变量为连续性
输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。
描述性包括 clustering association
Clustering 实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大 零售顾客的细分
Association 指的是我们想发现数据的各部分之间的联系和规则 购物篮分析

有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广。 譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。
用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。

classification and regression

Learning a function from input to output
classification: target is nominal, binary class variable, decision tree
regression: target is numerical

clustering and frequent patterns/association

clustering : divide dataset into groups of similar cases
frequent patterns/association : Find dependecies between variables

全部评论 (0)

还没有任何评论哟~