Data Mining数据挖掘课程记录

阅读量：

今年是我第一次数据挖掘，数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。然而今年的课程并不是特别关注挖掘的算法而是概念。下面做个总结，也当为我的期末复习。

Introduction

数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。除了原始分析步骤，它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理。数据挖掘是“数据库知识发现”（Knowledge-Discovery in Databases, KDD）的分析步骤，本质上属于机器学习的范畴。

The concept of extracting previously unknown and potentially usefull, interesting knowledge from large sets of data. analying data that wasn’t originally collected for analysis.

the big data

collect large amounts of data
administrative purposes
experience

goals

prediction/forecasting
diagnostics
optimization

2 streams

knowledge discovery
prediction

taxonomy of data mining

supervised : it maps an input to an output based on example input-output pairs and infers a function from labeled training data consisting of a set of training examples. It means some data is already tagged with the correct answer and can be compared to learning which takes place in the presence of a supervisor or a teacher.
examples: classification, regression
differences :
a. In a supervised learning model, input and output variables will be given. In unsupervised learning model, only input data will be given
b. In a supervised learning model, algorithms are trained using labeled data. a. In an unsupervised learning model Algorithms are used against data which is not labeled
c. Supervised learning is a highly accurate and trustworthy method. Unsupervised learning model is less accurate and trustworthy method.
unsupervised : clustering, pattern mining

supervised/unsupervised

在这里插入图片描述
这里用中文再解释解释
从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

预测性包括 classification regression
Classification 输出变量是离散型，常见的算法包括：贝叶斯决策树逻辑回归 KNN SVM 神经网络随机森林
Regression 输出变量为连续性
输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。
描述性包括 clustering association
Clustering 实现对样本的细分，使得同组内的样本特征较为相似，不同组的样本特征差异较大零售顾客的细分
Association 指的是我们想发现数据的各部分之间的联系和规则购物篮分析

有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。
有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不予以某种预先分类标签对上号为目的。
非监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于非监督学习方法的范畴。
用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法，即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。

classification and regression

Learning a function from input to output
classification: target is nominal, binary class variable, decision tree
regression: target is numerical

clustering and frequent patterns/association

clustering : divide dataset into groups of similar cases
frequent patterns/association : Find dependecies between variables

全部评论 (0)

还没有任何评论哟~

Data Mining数据挖掘课程记录

今年是我第一次数据挖掘，数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。然而今年的课程并不是特别关注挖掘的算法而是概念。下面做个总结，也当为我的期末复习。 Introduction 数据挖...

数据挖掘data mining

数据挖掘是从大量数据集中提取有用信息和知识的过程。它通常涉及使用算法和技术来分析数据，以发现数据中的模式、趋势和关联。数据挖掘可以帮助企业和组织理解客户行为，预测市场趋势，优化运营流程等。数据挖掘的...

数据挖掘(data mining)

1\.数据挖掘的定义数据挖掘是从大量数据中提取隐含的、未知的、但潜在有用的信息和知识的过程。它就像从矿山中挖掘金子一样，从海量数据中挖掘出有价值的信息。核心目标发现知识：从数据中找到隐藏的模式和...

【HCIE-BigData-Data Mining课程笔记（一）】数据挖掘介绍

数据挖掘介绍文章目录数据挖掘介绍 1.数据挖掘概述 2.数据挖掘基本流程 3.数据挖掘开发 1.数据挖掘概述 1.1数据挖掘典型应用场景金融数字政府智慧园区电商 1.2数据挖掘概述数据挖...

数据挖掘：Data Mining Techniques

文章目录 Classification分类 Clustering聚类 AssociationRuleDiscovery关联规则发现 SequentialPatternDiscovery顺序模式发现 R...

数据挖掘（Data Mining）扫盲笔记

知识框架来源：人工智能之数据挖掘其他补充来源：拿下Offer数据分析师求职面试指南、数据分析实战45讲 DataMining 概述篇基础认知挖掘对象常见任务：模型分类问题与挑战十大经典算...

Introduction to Data Mining 数据挖掘

OriginsofDataMining•Drawsideasfrommachinelearning/AI,patternrecognition,statistics,visualizationandd...

Introduction to Data Mining 数据挖掘

KDDProcess:ATypicalViewfromMLandStatistics•Thisisaviewfromtypicalmachinelearningandstatisticscommuni...

Data Mining：（1）走进数据挖掘

该博客为数据挖掘系列博客的第一部分：走进数据挖掘。该博客主要介绍数据挖掘的相关概念以及参考资料。文章目录 DMTheory 缘何兴起正式提出如何定义走个流程相似概念相关领域应用场景 D...

学习笔记——数据挖掘过程与方法 Data Mining

数据挖掘基本概念数据挖掘是一个从大规模数据集中提取隐含的、以前未知的、有潜在应用价值信息的非平凡过程。 Nontrivialextractionofimplicit,previouslyunknow...

是否确定退出登录?

Data Mining数据挖掘课程记录

Introduction

the big data

goals

2 streams

taxonomy of data mining

supervised/unsupervised

classification and regression

clustering and frequent patterns/association

全部评论 (0)

相关文章推荐

Data Mining数据挖掘课程记录

数据挖掘data mining

数据挖掘(data mining)

【HCIE-BigData-Data Mining课程笔记（一）】数据挖掘介绍

数据挖掘：Data Mining Techniques

数据挖掘（Data Mining）扫盲笔记

Introduction to Data Mining 数据挖掘

Introduction to Data Mining 数据挖掘

Data Mining：（1）走进数据挖掘

学习笔记——数据挖掘过程与方法 Data Mining