【Python】随机森林预测
文章目录
-
前言
-
一、为什么要使用RF
-
- 1.优点:
- 2.缺点:
-
二、使用步骤
-
-
- 导入必要的库
-
-
- 读取数据集
-
- 处理缺失值问题
-
- 对分类变量进行编码处理
-
- 设置自变量
-
- 进行模型构建过程
-
- 通过验证集评估模型效果的对比分析
-
- 构建A决策树模型构建过程
-
- 进行A特征重要性分析环节
-
总结
-
前言
通过集成多个决策树来构建一个更精确且更稳定的模型,在机器学习领域中这被认为是bagging思想与随机选择特征的结合体。在构建多棵决策树的基础上,在对某个样本进行分类或回归任务时,则会采用集成学习的方法:即在对某个样本进行分类或回归任务时,在完成所有决策树的学习后,在测试阶段将各棵决策树的结果综合起来作为最终输出结果。这种集成学习方法中的"随机性"主要体现在以下几个方面:首先是在数据预处理阶段会对原始数据进行多种方式进行降维;其次是在特征选取阶段会采取不同的特征子集策略;此外还可以通过调整算法参数来进一步优化模型性能并降低过拟合风险;最后则可以通过引入噪声或者正则化手段来提高模型泛化能力确保其在实际应用中表现出更好的稳定性和可靠性。
1. 随机取特征
2. 随机取样本,让森林中的每棵树既有相似性又有差异性
一、为什么要使用RF
1.优点:
准确率高运行起来高效(树之间可以并行训练)
不用降维也可以处理高维特征
给出了度量特征重要性的方法
建树过程中内部使用无偏估计
有很好的处理缺失值的算法
对于类别不平衡数据能够平衡误差
不仅能够量化数据样本之间的相似程度,并且根据这种相似性对样本进行聚类处理以及识别并剔除异常数据。
该系统开发了一种评估特征交互性经验法则(当数据包含多余的数据字段时表现出良好的适用性)
可以被扩展到无监督学习
易于检测模型准确性(如ROC曲线)
以上优点基于总结和个人看法
2.缺点:
作为难以解析性的不可知模型,在应用中使用大量随机样本可以取得显著的效果。
当遇到具有较高噪声的分类与回归问题时, 这种方法可能会出现欠拟合现象。
规模极大的模型通常需要更多的参数才能达到较高的精度。
生成的决策树数量众多导致分析过程相当繁琐。
二、使用步骤
1.引入库
代码如下(示例):
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import seaborn as sns
from six import StringIO
from IPython.display import Image
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import export_graphviz
import pydotplus
import os
2.读入数据
代码如下(示例):
data_train = pd.read_excel("data_train.xlsx")
# data_train.describe().to_excel('data_train_describe.xlsx')
# 数据描述性分析
print(data_train.describe())
# 数据完整性、数据类型查看
print(data_train.info())
运用统计学方法对数据进行整理和描述性分析
3.缺失值数据处理
# 数据缺失值个数
total = data_train.isnull().sum().sort_values(ascending=False)
# 缺失值数据比例
percent = (data_train.isnull().sum() / data_train.isnull().count()).sort_values(ascending=False)
print(total)
print(percent)
上一幅代码是对缺失值数据的统计,下一幅代码是对缺失值数据的填充。
# 缺失值填充
data_train['x1'] = data_train['x1'].fillna(0)
print(data_train.isnull().sum().max())
4.哑变量数据的处理
# 哑变量处理
data_train.loc[data_train['x10'] == '类别1', 'x10'] = 1
data_train.loc[data_train['x10'] == '类别2', 'x10'] = 2
a = pd.get_dummies(data_train['x10'], prefix="x10")
frames = [data_train, a]
data_train = pd.concat(frames, axis=1)
data_train = data_train.drop(columns=['x10'])
data_train.to_excel('data_train_yucl.xlsx')
5.特征变量
# 特征变量x1和标签变量y关系的散点图
var = 'x1'
data = pd.concat([data_train['y'], data_train[var]], axis=1)
data.plot.scatter(x=var, y='y')
plt.show()
# 特征变量x5和标签变量y关系的散点图
var0 = 'x5'
data0 = pd.concat([data_train['y'], data_train[var0]], axis=1)
data0.plot.scatter(x=var0, y='y')
plt.show()
# 特征数据和标签数据拆分
X = data_train.drop(columns=['y'])
y = data_train['y']
通过分析特征数据来识别变量的重要性。
特征选择的本质是通过特定评价标准来衡量给定特征子集的优劣性。
经过特征选择过程后,在原始特
征集合中被筛选出冗余和不相关的多余信息。从而有用的、重要的
特征得以保留下来。
因此,在相同的模型和数据下采用不同的变量会影响结果的巨大差异;
这表明,在不同的应用环境中选择合适的变量进行分析具有重要意义。



6.建模
# 建模
forest = RandomForestRegressor(
n_estimators=100,
random_state=1,
n_jobs=-1)
forest.fit(X_train, Y_train)
score = forest.score(X_validation, Y_validation)
print('随机森林模型得分: ', score)
y_validation_pred = forest.predict(X_validation)
利用RandomForestRegressor这一机器学习模型来进行预测任务;当然这也属于基本的建模方法之一。
7.验证集结果输出对比
# 验证集结果输出与比对
plt.figure()
plt.plot(np.arange(1000), Y_validation[:1000], "go-", label="True value")
plt.plot(np.arange(1000), y_validation_pred[:1000], "ro-", label="Predict value")
plt.title("True value And Predict value")
plt.legend()
plt.show()

8.决策树
# 生成决策树
# dot_data = StringIO()
with open('./wine.dot','w',encoding='utf-8') as f:
f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)
# graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
# graph.write_png('tree.png')
# Image(graph.create_png())
9.模型特征重要性
col = list(X_train.columns.values)
importances = forest.feature_importances_
x_columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10_类别1', 'x10_类别2']
# print("重要性:", importances)
# 返回数组从大到小的索引值

总结
利用随机森林模型进行预测的结果表明,所预测的数据与真实数据极为接近,并且具有较高的准确性。
