Advertisement

数据挖掘是什么,数据挖掘的学习路线是什么?

阅读量:

数据挖掘需要不仅具备复杂的分析能力、精通多种算法以及熟练掌握软件开发技术。但实际情况并非如此:沉溺于高深的算法研究与软件开发只会让你迷失其中。在工作中真正优秀的数据挖掘工程师一定是既能深入理解业务本质又能将专业知识灵活运用的专业人才。

2、数据挖掘与数据分析的区别

数据分析与数据挖掘的划分相当模糊。然而,在某些关键方面存在明确的差异:在分析方法上,在这些方面存在明确的差异。具体而言,在这些方面存在明确的差异:数据分析呈现的是数字特征、总量指标、平均指标等统计结果;而数据挖掘则呈现的是模型或规则等成果

(二)通过经典案例来学习数据挖掘,以达到触类旁通

在学习数据挖掘的过程中,在线性代数方面确实需要投入大量时间进行深入研究才能掌握其本质原理

1、预测未来一段时间用户是否会流失

2、某个促销活动用户是否会响应参加

3、评估用户信用度是好还是差

4、细分现有的目标市场

5、对现有客户群进行群体细分

6、提升商品销售及交叉销售

7、一群用户购买了很多商品之后,哪些商品同时购买的几率比较高

8、预测未来的销量

9、天气预报中预测明天的气温是怎样的

10、国家的年底规划中,预测明年的GDP增长率是怎样的

数据挖掘要做的就是把上述类似的商业问题转化为数据挖掘问题

那么说吧, 问个事情就是, 我们该怎么把上面提到的那个商业题目转化成一个数据分析的问题呢?我们可以按照数据分析的不同领域把它分成四部分: 分类分析, 聚类分析, 关联分析以及预测分析这四个大块的问题。

1、分类问题

在数据挖掘领域中, 用户流失预测、促销活动响应以及评估用户体验均被视为分类问题。为了更好地进行数据分析与建模, 请了解各类别间的关联性, 并明确有监督学习的基本概念。其中的主要分析方法包括决策树模型(如ID3算法)、贝叶斯分类器(如Naive Bayes)、K近邻算法(KNN)、支持向量机(SVM)以及神经网络模型等技术。

2、聚类问题

将市场和客户群体进行细分都属于数据挖掘中的聚类问题。我们需要掌握这些聚类特点,并了解无监督学习的概念。如划分聚类、层次聚层叠叠叠叠叠叠叠叠叠叠叠叠叠叠叠叠层堆堆堆堆堆堆堆堆堆堆等都是常见的算法。

3、关联问题

多维度销售问题归类于关联问题。另一种名称是购物篮分析。需了解并掌握常用的关联分析方法包括Aprior算法、Carma算法以及序列相关的方法。

4、预测问题

我们要掌握简单线性回归分析、多重线性回归分析、时间序列等

(三)用何种工具实操数据挖掘

面对着实现数据挖掘的工具与途径众多,在SPSS、SAS、Python、R等技术中均可找到相应的解决方案。然而我们需要掌握哪些具体的技术或者说是哪些关键的技术?真正掌握了数据挖掘的关键能力吗?这取决于我们的学习阶段以及追求进一步提升的具体方向。

1、达到理解入门层次

了解统计学和数据库即可

2、达到初级职场应用层次

数据库+统计学+SPSS(也可以是SPSS代替软件)

3、达到中级职场应用层次

SAS或R

4、达到数据挖掘师层次

SAS或R+Python(或其他编程语言)

(四)如何利用Python学习数据挖掘

只要具备一定的实用性,在选择数据挖掘工具时并不一定要拘泥于某一种特定的技术或方法;jacky则认为这一观点无需多言即可成立。那么,在具体应用中如何通过Python来进行数据分析与挖掘的过程呢?我们需要掌握哪些核心知识点呢?

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

1)pandas 分组计算;

2)pandas 索引与多重索引;

索引比较难,但是却是非常重要的

3)pandas 多表操作与数据透视表

2、numpy数值计算

numpy的数据计算其核心用途主要在于数据挖掘领域,在机器学习和深度学习领域也有着广泛的应用前景。这也是提升自身技术能力的重要工具之一。

1)Numpy array理解;

2)数组索引操作;

3)数组计算;

4)Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

1)Matplotib语法

Python中实现数据可视化的最基础库是matplotlib。初次 glance Matplotlib与matlib看起来很相似,为了弄清两者之间的关系将会使我们的学习过程更加轻松

2)seaborn的使用

seaborn是一个非常漂亮的可视化工具。

3)pandas绘图功能

我们说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

1)机器学习的定义

在这里跟数据挖掘先不做区别

2)代价函数的定义

3)Train/Test/Validate

  1. Overfitting的定义与避免方法

5、数据挖掘算法

经过长期发展的数据挖掘算法种类繁多;现在只需要掌握那些基础、关键以及常用的技术;

1)最小二乘算法;

2)梯度下降;

3)向量化;

4)极大似然估计;

5)Logistic Regression

  1. Decision Tree

  2. RandomForesr

  3. XGBoost

6、数据挖掘实战

通过机器学习里面最著名的库scikit-learn来进行模型的理解。

为此,我们特意为jacky同学梳理了数据挖掘的学习路径。除此之外,在通往数据分析与人工智能领域的道路上。我们需要掌握文本处理与自然语言分析的知识、深入探索Linux与Spark生态系统以及全面了解深度学习的核心技术。与此同时,在这一过程中还需要保持持续的兴趣和热情。

人工智能、大数据、云计算和物联网的未来发展值得重视,具有重要战略意义。这些前沿产业共同构成了多智时代发展的主要方向。在此背景下,《多智时代》杂志致力于为广大读者提供入门级教程和科普文章的专业平台,并为您精心挑选了一些优质好文推荐:

数据统计分析和数据挖掘有何区别?


智汇时代-人工智能与大数据基础入门学习平台|人工智能、大数据、物联网与云计算的学习交流平台

[

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台

](http://www.duozhishidai.com)

全部评论 (0)

还没有任何评论哟~