【数据挖掘】第一章 绪论 1.1节数据挖掘的概念和任务
今天我们将学习的是数据挖掘技术这门课的第一章绪论部分,绪论包含数据挖掘概念和任务,十大经典挖掘算法,开放数据获取,数据挖掘的常见误区,数据挖掘中的隐私保护。
本节课我们学习1.1节数据挖掘的概念和任务。为什么要进行数据挖掘?随着大数据和人工智能技术的蓬勃发展,人们越来越认识到,从浩瀚无际的海量数据中提取有用的信息和知识是非常重要的。目前技术发展的现状是数据量很大,但是相应的信息或知识相对匮乏。那么在这样的背景下,数据挖掘可以帮助我们做到什么呢?简而言之,我们可以通过数据挖掘获取哪些信息或者知识呢?我们以一个经典的例子来说明这个问题。沃尔玛超市曾经通过挖掘纸尿裤和啤酒这两个商品之间的关联关系,来进行商品销售的激励措施制定。类似的场景还有很多,譬如我们在网上购物时,通过提取我们的浏览记录或者购物记录浏览器算法给我们推荐一些我们可能会感兴趣的商品,头条 app 通过我们的浏览记录给我们推荐我们感兴趣的新闻等等,这些都是数据挖掘在实际应用中的经典场景。由此可见,我们学习和利用数据挖掘技术的动机,主要在于如何通过数据挖掘技术提炼场景应有的隐含知识,从而为我们的决策者和管理者提供决策支持。因此,数据挖掘是一门因实际需求而出现的技术,应用面十分广泛。
整体来看,我们学习数据挖掘的动机主要集中在以下六点。一,已获得的数据量很大,但是信息相对贫乏。二,计算设备功能越来越强大,且相对以前廉价,比如自配 gpu 或者使用在线 gpu 如华为 gput 的 gpu 等,其中有些可供学生免费测试使用。三,如果没有强大的数据分析与挖掘工具,数据对于普通用户而言越来越难以理解。四,数据采集的速度越来越快。我在大数据背景下,出现了许多非结构化的数据,传统技术对于这些结构复杂的数据分析存在很多技术瓶颈。六,对于学生学习而言,还有比较重要的一点,数据挖掘有助于科学研究,这一点大家可以参看一下最近几年计算机相关学科硕士招生目录,很多研究方向都与数据挖掘直接相关。但是需要注意的是,数据挖掘的方法和技术与传统的数据库 database 或者数据仓库 data well house 存在很大区别,这个在后期的学习中大家将形成比较深刻的认识。
下面讨论本节的第二个问题。
数据挖掘的对象。首先,来源最多的数据还是来自传统的关系数据库,数据库中的数据特点主要包括数据的动态性,不完全性,异构性,冗余性等特征,还可能包含一些噪音数据,因此对于这些类型的数据进行分析时,往往需要先进行数据的预处理操作。其次是来源于数据仓库的数据。数据仓库的特点在于其面向主题集成的数据,其数据随着时间不断变化,数据仓库的数据质量一般较好,也是数据挖掘比较理想的数据源之一。第三种数据类型是文本数据。文本数据是一类非结构化或者半结构化的数据源。数据挖掘针对文本分析主要是完成特征提取,文本聚类或分类等类似工作,如自然语言处理,nlp 分析。一个典型的例子就是英文作文的自动评分程序。英文作文的评分需要提炼句式和句法,这里就是典型的文本数据挖掘的内容了。第四种类型是多媒体数据。多媒体数据主要包括图像,音频,视频等。举一个例子,我们大学生毕业论文最后要进行论文查重,论文查重主要是以连续的五至七个字重复作为重复率的评判依据。那么如果一个作曲家作了一首乐曲,那么这个乐曲是不是抄袭的呢?能不能也和文本一样能实现相似性检索呢?同理,图像也是一样,现在网络上有很多的图片实物在线查询的小程序,拍照识别花卉,蔬菜,水果等,我想很多同学都应该用过了,这些都是比较有代表性的多媒体数据的数据分析与挖掘工作。第五种类型的数据是外部数据。在外部环境中,我们通过网页链接来进行信息浏览,网页链接的跳转可以记录用户的访问路径。比如15年的时候,我指导过我的研究生进行了一个研究工作,分析春节期间农村及周边城镇网吧用户的行为模式,比如使用了哪些类型的应用比较多,关注了哪些工作内容的搜索等,然后申请了一个软件著作权,叫劳务保,对农村青年的外出务工信息进行推荐。在这个系统中,我们主要是通过用户的外部数据进行相关分析与挖掘。
除了以上五种之外,还有一些其他专业程度较高的复杂数据类型,如空间数据,时间序列数据,这些数据的分析不仅要具备数据挖掘的功底,还需要较好的专业知识,在这里我就不过多展开了。最后我们来形式化总结一下数据挖掘的概念。数据挖掘在经典定义中有三个关键词 interesting ,useful ,hm ,也就是课件对农村青年的外出数据挖掘的概念数据挖掘进行推荐。在这个系统中,我们的外部数据进行相关分析与挖掘。除了以上五种之外,还有一些其他专业程度较高的复杂数据类型,如空间数据,时间序列数据,这些数据的分析不仅要具备数据挖掘的功底,还需要较好的专业知识,在这里我就不过多展开了。最后我们来形式化总结一下数据挖掘的关注了哪些工作内容的搜索等,然后申请了一个软件著作权,叫劳务保,对农村青年的外出务工信息进行推荐。在这个系统中,我们主要是通过用户的外部数据进行相关分析与挖掘。
除了以上五种之外,还有一些其他专业程度较高的复杂数据类型,如空间数据,时间序列数据,这些数据的分析不仅要具备数据挖掘的功底,还需要较好的专业知识,在这里我就不过多展开了。最后我们来形式化总结一下数据挖掘的概念。数据挖掘在经典定义中有三个关键词 interesting use ,shmc 也就是课件中标注为红色的部分,它强调了数据挖掘是从大型数据集中挖掘有趣的并且潜在有用的信息或者模式。因此数据挖掘还有一些别称,比如知识发现,知识提取,商务智能,数据捕捞等,都强调了知识的获取内容。
根据数据挖掘的概念,下面我们可以看一下以下12种数据处理的场景,是不是数据挖掘呢?区分的关键词大家可以尝试使用 interesting ,useful ,hm 这三个关键词,特别是前两个关键词来进行区分,比如第一个问题,根据性别划分公司顾客,这个数据操作不能称之为数据挖掘,因为性别划分客户是直接可见的,不满足这个条件,因此不是数据挖掘。其余题目大家可以思考一下,之后在课后习题部分提交你的答案。
由此可见,数据挖掘发现的知识类型一般是从三个维度来进行评价,即什么样的模式是用户感兴趣的,挖掘系统能不能产生有价值的模式,挖掘到的模式是不是都是有价值的知识,大家在以后的应用过程中,不妨以这样三个维度来评价自己所提出的数据挖掘算法。好的,这节课的内容我们就讲到这里,同学们,下节课再见。
