Advertisement

数据挖掘原理与算法笔记

阅读量:

第一章绪论

1. 数据挖掘的定义

从数据中抽取潜在未知但具有实用价值的信息
– 通过自动化或半自动化的方式对海量数据进行分析旨在发现有意义的规律
– 在知识挖掘的过程中运用特定算法于可接受的时间效率范围内构建特定模式的一个步骤

**2. 数据挖掘的任务和本课程的研究内容

3. 数据挖掘面临的挑战 **

复制代码
    可伸缩性(算法的时间复杂度) 
    高维数据 复杂和异构数据 数据质量(测量误差、噪声、缺失、重复)
     数据所有权和分布
      隐私保护(进行必要的预处理)
    
    
      
      
      
      
    
    代码解释

能阐述数据挖掘的基本任务。 能够说明数据挖掘的一般性描述。 掌握本课程的核心研究方向。

复制代码
Web 结构挖掘----权威网页
       Web 使用挖掘----日志记录的挖掘
    Web 内容挖掘----文档信息的挖掘
    
    
      
      
      
    
    代码解释

知识发现过程

复制代码
       1)数据选择:从数据库中检索出与分析有关的数据。 
       2)数据清洗:处理噪声数据。 
       3)数据集成:将多个数据源的数据结合起来,这些数据源的 数据格式可能不同。 
       4)数据转换:将数据转化到利于挖掘算法运行的形式,如求 和等运算。 
       5)数据挖掘:应用智能方法来抽取出数据模式。 
       6)模式评价:利用某些兴趣度评价标准来选出用户真正 感兴趣的模式。 
       7)知识表示:通过可视化和其他知识表现技术将挖掘结果 提供给用户。
    
    
      
      
      
      
      
      
      
    
    代码解释

数据挖掘的方法:

复制代码
      预测方法 – 用一些变量来预测另一些变量的未知或未来的 取值,如疾病诊断、价格预测
    描述方法 – 找出可以解释的模式来描述数据,如商品销售 内在关联,客户群的结构
    
    
      
      
    
    代码解释

数据挖掘的研究课题

复制代码
     关联规则发现 [描述] 
     分类 [预测]
     聚类 [描述] 
     序列模式发现 [描述] 
     回归 [预测]
    
    
      
      
      
      
      
    
    代码解释

全部评论 (0)

还没有任何评论哟~