Python金融数据挖掘期末复习
祝大家考试顺利~
一,题型和分值

二,知识点整理
1,数据挖掘
① 数据挖掘概念是在海量数据中利用算法进行有效信息的提取与整理过程。
② 算法分类如下:
- 关联规则挖掘采用Apriori算法。
- 时间序列预测采用滑动窗口平均法。
- 数据分类包括决策树、贝叶斯分类器、支持向量机和神经网络。
- 数据聚类主要使用K均值聚类以及基于神经网络的聚类方法。
2,文本挖掘
①基本概念:在大量文本的集合C中发现隐含的模式P
②TF-IDF
基本思想

计算:TF(词频)×IDF(逆文档频率)
TF:

IDF:

3,支持度和置信度
①支持度:项目X和项目Y同时同时出现的概率
最小支持度:项目集在统计意义上的最低重要性

②置信度:被包含在项目X中的事务同时也涉及到了项目Y,并表示在项目X发生的情况下, 项目的可能性
最小置信度:关联规则的最低可靠性

③项目集格空间理论
定理1:对于任意一个frequent itemset的所有子集中至少存在一个也是frequent itemset。
定理2:每一个non-frequent itemset的所有超集中都不存在任何frequent itemset。
4,决策树
①信息熵

②条件熵

③信息增益

④信息增益率

⑤ID3和C4.5:
ID3就是基于信息增益的计算方式来进行数据处理与决策,而C4.5则是基于信息增益率的计算方法来实现数据处理与决策
5,朴素贝叶斯
①条件概率
在B前提下发生A事件的可能性,记作P(A|B)=P(AB)/P(B)
②先验后验概率
根据历史数据统计和分析的结果得出的概率即为先验概率;而当获得观察到的结果之后再进行评估所得到的就是后验概率
6,K近邻分类与K均值聚类
该数据点的类别判定取决于其K个最近邻样本点的分类情况决定了归属结果。
流程:

②K均值聚类:将样本点归属到距离它最近的那个聚类中心
流程:

③dbscan
MinPot:最小域值
EPS:半径
算法过程(一看就会):[基于密度的聚类算法dbscan算法_哔哩哔哩_bilibili-, 视频播放量 2764、弹幕量 5、点赞数 53、投硬币枚数 23、收藏人数 72、转发人数 23, 视频作者 彦lin霖霖霖霖霖, 作者简介 承蒙厚爱,相关视频:基于密度的聚类 DBSCAN 解释与实例计算,DBSCAN聚类的python实现( iris数据集)不同聚类算法实验对比(moons,blobs,circle数据集),关联规则apriori算法,期末数据挖掘K-means算法 计算大题(自用版),快速学会聚类算法系列之DBSCAN(附matlab代码),数据仓库 数据挖掘 关联规则挖掘 - Apriori 算法,期末数据挖掘层次聚类算法 (自学版),这也太全了!回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机等十大机器学习算法一口气学完!,【10分钟算法】K均值聚类算法-带例子/K-Means Clustering Algorithm,聚类问题:DBSCAN算法详解+考试例题讲解

基于密度分布的聚类算法DBSCAN的应用在哔哩哔哩平台上广泛传播
7,sklearn
①功能
分类 :识别给定对象的所属类别;
回归分析:预测雨量给定对象的相关联的连续值属性;
聚类分析:自动识别具有相似属性的给定对象,并将这些对象根据属性的相似程度分组为多个集合;
数据降维技术:将高维特征空间里的点向一个低维空间投影;
模型选择方法:对于给定参数和模型进行比较,验证和选择;
数据预处理流程:对数据进行特征提取和归一化处理
②模块
预处理器
转换器
估计器
模型评估,交叉验证
③knn算法思路
使用knn.**fit()函数进行模型训练,并在完成之后利用knn.**predict()函数来进行预测分析。对于测试集中的数据样本,则会执行分类预测任务。
8,神经网络
①模型
神经元模型
多层人工神经网络模型
梯度下降算法通过计算给定点处的梯度向量来确定其方向,在该方向上函数值的变化率最低。
后向传播:基于输出结果与真实标签之间的对比关系进行操作,在神经网络模型中运用链式法则系统地计算损失函数对于各权重参数以及各偏差参数的梯度值,并将这些梯度值反向传播至网络中的各个层级以便更新模型参数的过程
9,相关和回归
①协方差

常用计算公式:

②相关系数

10,混淆矩阵
①结构

②概念

三,计算分析题模块
1,基础知识
①欧几里德距离(欧式距离)

,
②曼哈顿距离

③余弦相识度

2,朴素贝叶斯计算
期末考试中运用朴素贝叶斯算法进行数据挖掘的计算题(自用版)在哔哩哔哩平台发布。

期末考试 数据分析技术 朴素贝叶斯算法 重点计算题型(学习版)
3,ID3算法
期末数据挖掘课程 ID3 算法 计算大题(自学版)

期末考试数据分析技术中ID3算法用于计算题(自学者专用版)的教学视频
4,KNN算法
期末课程《数据挖掘》K近邻算法计算题自测版

课程数据挖掘KNN算法 计算题库(个人版本)
5,关联规则的apriori算法
期末考试中数据挖掘关联规则Apriori算法的应用题解析(自用版本)
播放量:19504人观看;互动量:26条弹幕;喜欢人数:530人;打赏次数:124次;收藏人数:369人;分享次数:114次
视频作者:超人的sister
作者简介:
相关视频列表:
- 期末考试中数据挖掘关联规则Apriori算法的应用题解析(自用版本)
- 数据仓库 数据挖掘 关联规则挖掘 - Apriori 算法
- 关联规则apriori算法
- 数据挖掘十大算法期末复习
- 期末考试中数据挖掘KNN算法 计算大题(自用版)
- 数据挖掘简答题知识点
- 【自用

https://www.bilibili.com/video/BV1B64y1H7Uc/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900](https://www.bilibili.com/video/BV1B64y1H7Uc/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900 "end-term data mining association rules apriori algorithm computational questions (self-study version)_哔哩哔哩_bilibili")
