Advertisement

大数据最新Introduction to Data Mining 数据挖掘(1),带你全面解析大数据开发框架体系架构view篇

阅读量:
img
img
img

针对小白学习需求准备的零基础资料以及专为3年以上经验者设计的深入学习提升课程应有尽有;不仅包含超过95%的数据相关知识点,并且整体架构非常系统化。

因为文件数量较多的原因,在这里我们仅提供目录截屏,并且涵盖大厂面经、学习笔记等资源,并非全部内容

需要这份系统化资料的朋友,可以戳这里获取

KDD Process: A Canonical Perspective within the Fields of Machine Learning and Statistics • This represents a canonical perspective within the fields of machine learning and statistics.

cfc75c9b959745f3aabd4db9ca20603f.png

KDD流程包含多个关键步骤:学习应用领域中的相关知识及目标;构建目标数据集(包括数据选择);进行数据清理与预处理(可能占整体工作量的60%);特征提取与降维(包括维度缩减、变量降维及不变量表示等步骤);选择数据分析功能(包括汇总分析、分类识别、回归建模等基础方法);进行数据分析以寻找感兴趣的知识模式;对发现的知识进行评估与展示(包括可视化呈现以及去除冗余模式等步骤);最后利用发现的知识进行实际应用

Data Mining and Business Intelligence

5b0aeabd726e4e6c9c10703489ad747d.png

Multi-Dimensional View of Data Mining • 需要挖掘的数据包括关系型数据(如关系型数据库)、基于仓库的数据(如OLAP)、事务型数据(如企业日常交易记录)、流数据(如实时网络流量记录)、面向对象/关系型混合数据(如JavaBean)、活动性数据(如市场活动轨迹)、空间型数据(如地理位置信息)、时间序列型数据(如股票价格走势)、文本型数据(如书籍内容查询结果)以及多媒体类型的数据(如图像识别结果)等 • 需要挖掘的知识涉及特征分析、鉴别分析等 • 多种/集成功能和多层次挖掘 • 使用的技术包括面向数据库的技术、基于OLAP的数据仓库技术以及机器学习算法 • 适应的应用包括零售业分析、电信业分析等

基于数据分析的分类体系 • 数据分析的一般功能

Data Mining: On What Kinds of Data? • 基于数据库的数据集与应用 — 关系型数据库、数据仓库、事务型数据库 • 高级数据集与高级应用 — 数据流与传感器数据 — 时间序列数据、时间数据、序列数据(包括生物序列) — 结构化数据、图形、社交网络及多链接式数据库 — 对象关系型数据库 — 异构数据库与传统型数据库 — 空间型数据库与时空型空间时序数据分析库 — 多媒体库 — 文本库 — 万维网

da3e22190c2c43bfbc471c75bb461256.png

Data Mining Tasks • Prediction Methods — 利用某些变量预测其他变量的未知值或未来值
预测方法 - 描述其他变量未来或未知值的过程
• Description Methods — 揭示数据的本质特征
描述方法 - 揭示数据的本质特征

Data Mining Activities Encompass a Variety of Tasks, Including Classification (Predictive), Clustering (Descriptive), Association Rule Discovery (Descriptive), Sequential Pattern Identification (Descriptive), Regression Analysis (Predictive), and Anomaly or Outlier Detection (Predictive).

Data Mining Functions: (1) 归纳 • 信息集成与数据仓库构建 — 数据清理、转换、集成和多维数据模型 • 数据立方体技术 — 采用可扩展的方法计算(即具体化)多维聚合 — OLAP(在线分析处理) • 多维概念描述:特征描述与判别 — 通过归纳、总结以及对比数据特征(如干燥地区与湿润地区)

Data Mining Functions: (2) Association and Correlation Analysis • Frequent patterns (or frequent itemsets) — Which products are frequently purchased together at your Walmart? • The distinction between association, correlation, and causality — A typical association rule: diapers → beer [support level: 0.5%, confidence level: 75%] — Are strongly associated products also strongly correlated? • How can we efficiently mine such patterns and rules from large datasets? • How can we leverage these patterns for tasks like classification and clustering?

Association Rule Discovery: Definition • Consider a collection and analyze multiple records where each record contains several items within the provided set; — Generate association rules that will predict the occurrence of an item based on the occurrences of other related items.

864e6a0656d64036a56fde04e10565d5.png

Data Mining Functions: 第三部分 分类与预测 • 分类与预测 - 基于一些训练实例构建模型(函数) - 描述并区分类别或概念以实现未来预测 ◦ 例如根据气候对国家进行分类或根据燃油效率对车辆进行分类 分类与预测 - 根据一些训练实例构建模型(函数) - 描述并区分类别或概念以实现未来预测 • 预测某些未知或缺失的数值值

79c8d35812324c9da859c52735d927ec.png

Data Mining Functions: (4) Cluster and Outlier Analysis • Cluster analysis — 无监督学习(即类别标签未知) — 将数据分组以形成新的类别(即聚类),例如,在对房屋进行聚类时可发现分布模式 — 原则为最大化同类内部相似性与最小化同类之间相似性 — 应用广泛 • Outlier analysis — 离群值是指那些不符合数据一般行为的数据对象 — 噬物还是宝藏?- 一个人的垃圾可能是另一个人的宝藏 — 方法涉及通过聚类或回归分析的结果来识别异常值 … — 在欺诈检测及罕见事件分析等领域具有重要应用

Explaining the process of clustering, Euclidean distance-based clustering within a three-dimensional space

9377b67872594b228893ceabbe93f960.png

Data Mining Functions: (5) Trend and Evolution Analysis • Sequence, trend with evolution analysis – Trend & deviation analysis: for instance, regression – Sequential pattern mining ◦ Such as purchasing a digital camera followed by large SD memory cards – Periodicity analysis – Motifs in time-series or biological sequences – Approximate & consecutive motifs • Time-series & biological sequence analysis based on similarity

Data Mining Functions: (6) Structure and Network Analysis • Graph mining - Identifying frequent subgraphs (e.g., chemical compounds), trees (XML), and substructures (web fragments). Information network analysis - Social networks: participants (objects, nodes) and connections (edges). e.g., author networks in CS, terrorist networks - Multiple diverse types of networks. A person could be part of several information networks: friends, family, classmates, etc. Links hold a significant amount of semantic data: Link mining • Web mining - The web is a vast information network from PageRank to Google. Analysis of Web information networks - Web community detection, opinion analysis, usage insights,...

在ICDM’2006年中, Top-10算法最终被选中,其中包括以下项目: C4.5(获得61票)、K-Means(获得60票)、SVM(获得58票)、Apriori(获得52票)、EM(获得48票)、PageRank(获得46票)、AdaBoost(获得45票)、kNN(获得45票)、Naive Bayes(获得45票)以及CART(仅获得34票)。

是否所有发现的模式都具有吸引力?
数据挖掘可能会生成数千种模式:并非所有模式都很有趣——建议的方法是基于人类中心、基于查询和有重点的数据挖掘
有趣性衡量标准——如果一个模式易于被人类理解,在新数据或测试数据上有一定程度的确定性,并且潜在有用、新颖或验证了用户试图确认的某些假设,则该模式是有趣的
建议的方法是基于人类中心、基于查询和有重点的数据挖掘
客观与主观有趣性衡量标准——客观标准基于模式的统计数据和结构(如支持度、置信度等),而主观标准则依据用户对数据的信任(如意外性、新颖性、可操作性等)

系统能否穷尽性地识别出所有具有吸引力的模式?我们需要穷尽性地识别出所有具有吸引力的模式吗?

  • 完整性 - 数据挖掘系统能否穷尽性地识别出所有具有吸引力的模式?
  • 我们需要穷尽性地识别出所有具有吸引力的模式吗?
  • 启发式搜索与穷举式搜索
  • 关联搜索与分类搜索与聚类搜索
    只搜索有趣的模式:这是一个优化问题。
    数据挖掘系统能否只找到有趣的模式?
    方法:
    ◦ 首先生成所有的潜在规律性,并随后筛选掉非有趣的规律
    ◦ 只生成有趣的规律 - 挖掘查询优化

Other Pattern Mining Issues • Comparing precise and approximate patterns: In association and correlation mining, it is potential to identify sets of precise patterns ◦ However, approximate patterns may offer more concise yet comprehensive solutions ◦ The challenge lies in discovering high-quality approximate patterns - In gene sequence analysis, approximate patterns are inherently present ◦ Deriving efficient algorithms for approximate pattern mining remains a key challenge. • Constraints vs. unconstrained patterns: Why adopt constraint-based approaches? - What types of constraints exist, and how can they be effectively integrated into the mining process?

006324ab2ab34ff9b504b651eb3ce44b.png

The fusion of Data Mining and Data Warehousing • The integration of Data Mining systems, Database Management Systems (DBMS), and Data Warehouse systems can be categorized into no coupling, loose coupling, semi-tight coupling, and tight coupling. 数据挖掘系统、数据库管理系统(DBMS)以及数据仓库系统的结合可以分为无耦合、松耦合、半紧耦合以及紧耦合. • Online analytical processing (OLAP) data integration 线上分析处理(OLAP)数据整合 • Interactive multi-level knowledge mining 交互式多层知识挖掘 - It is essential to extract knowledge and patterns at various levels of abstraction through techniques such as drilling/rolling, pivoting, slicing/dicing, etc. 为了获得不同抽象层次的知识和模式分布信息,在钻取/滚动、透视以及切片/切割等方法的基础上进行交互式多层知识挖掘.- • Multi-function integration 整合多种功能 - This process is characterized by first performing classification as a feature extraction method followed by clustering and association analysis. 这种整合过程主要通过特征分类法实现,并在此基础上依次进行聚类和关联分析.

将数据挖掘与DB/DW系统进行深度集成以实现高效的数据分析功能

93fa99f4f4054f5ead8c0498cd9a6806.png
baf36105fb16450484987cfdb0116171.png

Major Issues in Data Mining • Data Mining Methodology — Extracting various types of knowledge from different data sources such as bioinformatics, streaming data, and the Web — Performance metrics include efficiency, effectiveness, and scalability — Pattern evaluation focuses on identifying interesting patterns while addressing the interestingness problem — Incorporating domain-specific background knowledge — Efficiently handling noise and incomplete datasets — Advanced parallel processing techniques for distributed computing — Integration strategies for discovered knowledge with existing systems: knowledge fusion • User Interaction — Comprehensive support for constructing query languages for data mining operations — Enhanced capabilities for interactive exploration of mined results at multiple levels of abstraction • Applications & Social Impact — Development of specialized domain-based approaches combined with advanced hidden or implicit analysis methods — Robust measures for maintaining data security, integrity, and privacy

img
img

网上学习资料浩如烟海,在这种情况下, 如果所学的知识缺乏系统性, 则可能导致学习者仅停留在表面, 并且无法深入探究问题的本质. 因此, 在技术领域想要想要取得真正的进步, 则需要建立一个完整的知识体系.

需要这份系统化资料的朋友,可以戳这里获取

一个人可以跑得很快。但一群人就要走得更远!无论是已经从事IT行业的老鸟还是对IT行业感兴趣的新人们,请随时加入我们的平台(技术交流、学习资源等),让我们携手共进吧!

一个人可以跑得很快。但一群人就要走得更远!无论是已经从事IT行业的老鸟还是对IT行业感兴趣的新人们,请随时加入我们的平台(技术交流、学习资源等),让我们携手共进吧!

IT行业的资深从业者或对IT行业感兴趣的朋友们诚挚邀请加入我们的圈子(进行技术交流、获取学习资源、分享职场趣事、获取大厂内推机会以及提供面试辅导),让我们共同进步与成长!

全部评论 (0)

还没有任何评论哟~