sklearn(9):天池蒸汽项目预测

阅读量：

整体思路

导入数据后，将训练集和测试集粘合
特征搜索，通过观察每个特征下训练集和测试集的数据的取值范围以及分布情况，将分布不均匀的特征项删除
特征相关性处理：将每一个特征与训练集的目标值计算相关性，删除相关性低且分布不均匀的特征，note：可以通过生成heatmap的方式观察每个特征与目标值之间的相关性或相关系数
数据处理：对数据进行归一化，并使用boxcox方法使每一个特征下的数据集更加正态分布化
使用ridge回归算法训练测试集，将异常点（噪声）删除，提高测试准确度
算法模型的建立：通过字典建立尽可能多地预测模型观测训练集在每一个模型下的r2和mse从而减少那些对于该数据集预测不准确的模型，保留那些r2较大，mse较小的值。
用保留下的算法模型fit训练集对测试集的特征数据集进行预测，将每一组预测值添加到列表中，并去列表下所有预测值的平均数。
储存预测值

其他可能减小MSE的方法

将每个算法预测出的值作为新特征加入到原始数据集和测试集中。
将预测值通过数学计算变得更加拟合正态分布。
对预测模型的超参数进行调参。

代码1：使用标准化进行预测

复制代码

    import numpy as np
    import pandas as pd
    import  matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn.linear_model import LinearRegression,Lasso,Ridge,RidgeCV,ElasticNet
    from sklearn.neighbors import KNeighborsRegressor
    from sklearn.ensemble import GradientBoostingRegressor,RandomForestRegressor,AdaBoostRegressor,ExtraTreesRegressor
    from xgboost import XGBRegressor
    from lightgbm import LGBMRegressor
    from sklearn.svm import SVR
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import MinMaxScaler,StandardScaler,PolynomialFeatures,minmax_scale
    import warnings
    from scipy import stats
    warnings.filterwarnings("ignore")
    
    #数据聚合
    train=pd.read_csv("zhengqi_train.txt",sep="\t")
    test=pd.read_csv("zhengqi_test.txt",sep="\t")
    train["origin"]="train"
    test["origin"]="test"
    
    
    data_all=pd.concat([train,test])
    #print(data_all.shape) #(4813, 40)
    #print(data_all.head())
    
    '''特征探索'''
    #38个特征，将一些不重要的特征删除
    #特征分布情况，训练和测试数据特征分布不均匀，删除
    '''
    plt.figure(figsize=(9,6))
    for i,col in enumerate(data_all.columns[:-2]):
    #密度图
    cond_train=data_all["origin"]=="train" #检索属于训练集的
    train_col=data_all[col][cond_train] #取出训练集的每一列
    cond_test = data_all["origin"] == "test"
    test_col = data_all[col][cond_test]
    # axes=plt.subplot(38,1,i+1)
    ax=sns.kdeplot(train_col,shade=True)
    sns.kdeplot(test_col,shade=True,ax=ax)
    plt.legend(["train","test"])
    plt.xlabel(col)
    plt.show()
    plt.figure(figsize=(9,6))
    for col in data_all.columns[:-2]:
    g=sns.FacetGrid(data_all,col="origin")
    g.map(sns.distplot,col) #distribute
    # plt.show()
    '''
    drop_labels=["V11","V17","V22","V5"]
    data_all=data_all.copy()
    data_all.drop(drop_labels,axis=1,inplace=True)
    print(data_all.shape)
    
    '''相关性系数'''
    #方差是协方差的一种特殊形式
    cov=data_all.cov() #协方差
    corr=data_all.corr()#相关系数
    
    #查看特征和目标值的相关系数
    cond=corr.loc["target"].abs()<0.1 #把特征与目标之间相关系数小于0.1的删除
    # print(corr.loc["target"].index[cond])
    #Index(['V14', 'V21', 'V25', 'V26', 'V32', 'V33', 'V34']
    
    '''通过与密度图做对比，删除v14，v21特征'''
    drop_labels_1=["V14","V21"]
    data_all.drop(drop_labels_1,axis=1,inplace=True)
    print(data_all.shape)
    
    '''热图'''
    # plt.figure(figsize=(20,16))
    # mcorr=train.corr()
    # mask=np.zeros_like(mcorr,dtype=np.bool)
    # mask[np.triu_indices_from(mask)]=True#对角线右侧设置为true
    # cmap=sns.diverging_palette(220,10,as_cmap=True)#给予颜色 colormap
    # g=sns.heatmap(mcorr,mask=mask,cmap=cmap,square=True,annot=True,fmt="0.2f")#生成热力图
    # plt.show()
    # print(mask)
    
    '''标准化操作,每一个特征的方差都变为0'''
    stand=StandardScaler()
    data=data_all.iloc[:,:-2]
    data2=stand.fit_transform(data)
    cols=data_all.columns
    data_all_std=pd.DataFrame(data2,columns=cols[:-2])
    data_all.index=np.arange(4813)
    data_all_std=pd.merge(data_all_std,data_all.iloc[:,-2:],right_index=True,left_index=True)
    # print(data_all_std.head())
    # # print(data_all_std.describe())
    
    '''使用不同的算法进行训练'''
    #异常值
    ridge=RidgeCV(alphas=[0.0001,0.001,0.01,0.1,0.2,0.5,1,2,3,5,10,20,30,50])
    condition=data_all_std["origin"]=="train"
    x_train=data_all_std[condition].iloc[:,:-2]
    y_train=data_all_std[condition]["target"]
    ridge.fit(x_train,y_train) #算法拟合数据和目标值的时候，训练集不可能完全拟合
    y_hat=ridge.predict(x_train)#预测值和真实值之间偏差如果特别大，可以作为异常值，3sigma准则
    
    result=(y_train-y_hat).abs()>y_train.std()
    print(result.sum()) #有38个异常值
    
    #画图
    '''
    plt.figure(figsize=(12,6))
    axes=plt.subplot(1,3,1)
    axes.scatter(y_train,y_hat)
    axes.scatter(y_train[result],y_hat[result],c="red",s=20)
    axes=plt.subplot(1,3,2)
    axes.scatter(y_train,y_train-y_hat)
    axes.scatter(y_train[result],(y_train-y_hat)[result],c="red",s=20)
    axes=plt.subplot(1,3,3)
    (y_train-y_hat).hist(bins=50,ax=axes)
    (y_train-y_hat)[result].plot.hist(bins=50,ax=axes,color="red")
    plt.show()
    '''
    
    '''将异常值点过滤'''
    drop_index=result[result].index#找到异常值的索引
    data_all_std.drop(drop_index,axis=0,inplace=True)
    #data_all_std (4813, 34)
    print(data_all_std.shape) #(4775, 34) 共删除了38个异常值点
    
    def detect_model(estimators,data):
    for key,estimators in estimators.items():
        estimators.fit(data[0],data[2])
        y_=estimators.predict(data[1])
        mse=mean_squared_error(data[3],y_)
        print("----------MSE%s"%(key),mse)
        r2=estimators.score(data[1],data[3])
        print("----------R2%s" % (key), r2)
        print("\n")
    
    X=data_all_std[data_all_std["origin"]=="train"].iloc[:,:-2]
    Y=data_all_std[data_all_std["origin"]=="train"]["target"]
    data_use=train_test_split(X,Y,test_size=0.2)
    estimators={}
    '''
    estimators["knn"]=KNeighborsRegressor()
    estimators["linear"]=LinearRegression()
    estimators["ridge"]=Ridge()
    estimators["lasso"]=Lasso()
    estimators["elasticNet"]=ElasticNet()
    estimators["forest"]=RandomForestRegressor()
    estimators["gbdt"]=GradientBoostingRegressor()
    estimators["ada"]=AdaBoostRegressor()
    estimators["Extra"]=ExtraTreesRegressor()
    estimators["svm_rbf"]=SVR(kernel="rbf")
    estimators["svm_poly"]=SVR(kernel="poly")
    estimators["LGB"]=LGBMRegressor()
    estimators["xgboost"]=XGBRegressor()
    detect_model(estimators,data_use)
    '''
    
    #对于测试数据而言，KNN,lasso，elasticnet，svm_poly的mse过于大，所以删掉
    estimators["linear"]=LinearRegression()
    estimators["ridge"]=Ridge()
    estimators["forest"]=RandomForestRegressor()
    estimators["gbdt"]=GradientBoostingRegressor()
    estimators["ada"]=AdaBoostRegressor()
    estimators["Extra"]=ExtraTreesRegressor()
    estimators["svm_rbf"]=SVR(kernel="rbf")
    estimators["LGB"]=LGBMRegressor()
    estimators["xgboost"]=XGBRegressor()
    cond2=data_all_std["origin"]=="train"
    xtrain=data_all_std[cond2].iloc[:,:-2]
    ytrain=data_all_std[cond2]["target"]
    print(xtrain.shape)
    print(ytrain.shape)
    
    cond3=data_all_std["origin"]=="test"
    xtest=data_all_std[cond3].iloc[:,:-2]
    print(xtest.shape)
    
    
    predict1=[]
    #将每个算法对于训练集和测试集的预测作为特征加入到训练集和测试集作为新的特征
    #最终预测加入测试集,集成算法，将每个算法的结果合并
    # for key,model in estimators.items():
    #     model.fit(xtrain,ytrain)
    #     y_predict_train=model.predict(xtrain)
    #     xtrain[key]=y_predict_train
    #     y_predict=model.predict(xtest)
    #     # print(y_predict.shape)
    #     xtest[key]=y_predict#将预测值作为新的特征，让算法进行再学习
    
    #最终预测加入测试集,集成算法，将每个算法的结果合并
    for key,model in estimators.items():
    model.fit(xtrain,ytrain)
    y_estimate=model.predict(xtest)
    predict1.append(y_estimate)
    
    y_final=np.mean(predict1,axis=0)
    # print(y_final)
    # y_final+=np.random.randint(1925)*0.1
    pd.Series(y_final).to_csv("./天池蒸汽项目预测值",index=False)
    sns.distplot(y_final)
    plt.show()

代码2：使用归一化+boxcox方法进行预测

复制代码

    import numpy as np
    import pandas as pd
    import  matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn.linear_model import LinearRegression,Lasso,Ridge,RidgeCV,ElasticNet
    from sklearn.neighbors import KNeighborsRegressor
    from sklearn.ensemble import GradientBoostingRegressor,RandomForestRegressor,AdaBoostRegressor,ExtraTreesRegressor
    from xgboost import XGBRegressor
    from lightgbm import LGBMRegressor
    from sklearn.svm import SVR
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import MinMaxScaler,StandardScaler,PolynomialFeatures
    import warnings
    from scipy import stats
    warnings.filterwarnings("ignore")
    
    #数据聚合
    train=pd.read_csv("zhengqi_train.txt",sep="\t")
    test=pd.read_csv("zhengqi_test.txt",sep="\t")
    train["origin"]="train"
    test["origin"]="test"
    
    
    data_all=pd.concat([train,test])
    #print(data_all.shape) #(4813, 40)
    #print(data_all.head())
    
    '''特征探索'''
    #38个特征，将一些不重要的特征删除
    #特征分布情况，训练和测试数据特征分布不均匀，删除
    '''
    plt.figure(figsize=(9,6))
    for i,col in enumerate(data_all.columns[:-2]):
    #密度图
    cond_train=data_all["origin"]=="train" #检索属于训练集的
    train_col=data_all[col][cond_train] #取出训练集的每一列
    cond_test = data_all["origin"] == "test"
    test_col = data_all[col][cond_test]
    # axes=plt.subplot(38,1,i+1)
    ax=sns.kdeplot(train_col,shade=True)
    sns.kdeplot(test_col,shade=True,ax=ax)
    plt.legend(["train","test"])
    plt.xlabel(col)
    plt.show()
    plt.figure(figsize=(9,6))
    for col in data_all.columns[:-2]:
    g=sns.FacetGrid(data_all,col="origin")
    g.map(sns.distplot,col) #distribute
    # plt.show()
    '''
    drop_labels=["V11","V17","V22","V5"]
    data_all=data_all.copy()
    data_all.drop(drop_labels,axis=1,inplace=True)
    print(data_all.shape)
    
    '''相关性系数'''
    #方差是协方差的一种特殊形式
    cov=data_all.cov() #协方差
    corr=data_all.corr()#相关系数
    
    #查看特征和目标值的相关系数
    cond=corr.loc["target"].abs()<0.1 #把特征与目标之间相关系数小于0.1的删除
    # print(corr.loc["target"].index[cond])
    #Index(['V14', 'V21', 'V25', 'V26', 'V32', 'V33', 'V34']
    
    '''通过与密度图做对比，删除v14，v21特征'''
    drop_labels_1=["V14","V21"]
    data_all.drop(drop_labels_1,axis=1,inplace=True)
    print(data_all.shape)
    
    '''热图'''
    # plt.figure(figsize=(20,16))
    # mcorr=train.corr()
    # mask=np.zeros_like(mcorr,dtype=np.bool)
    # mask[np.triu_indices_from(mask)]=True#对角线右侧设置为true
    # cmap=sns.diverging_palette(220,10,as_cmap=True)#给予颜色 colormap
    # g=sns.heatmap(mcorr,mask=mask,cmap=cmap,square=True,annot=True,fmt="0.2f")#生成热力图
    # plt.show()
    # print(mask)
    
    '''标准化操作,每一个特征的方差都变为0'''
    stand=StandardScaler()
    data=data_all.iloc[:,:-2]
    data2=stand.fit_transform(data)
    
    '''对数据进行归一化'''
    data111=data_all.iloc[:,:-2]
    MinMaxScaler=MinMaxScaler()
    data3=MinMaxScaler.fit_transform(data111)
    data_all_norm=pd.DataFrame(data3,columns=data_all.columns[:-2])
    data_all_norm=pd.merge(data_all_norm,data_all.iloc[:,-2:],left_index=True,right_index=True)
    
    
    def minmax_scale(data):
    return (data-data.min())/(data.max()-data.min())
    
    '''
    #check effect of Box-cox transforms on distributions of continious variables
    fcols=6
    frows=len(data_all_norm.columns[:10])
    plt.figure(figsize=(4*fcols,4*frows))
    i=0
    for col in data_all_norm.columns[:10]:
    dat=data_all_norm[[col,"target"]].dropna()
    
    i+=1
    plt.subplot(frows,fcols,i)
    sns.displot(dat[col])
    plt.title(col+"original")
    plt.xlabel("")
    #第二个图，skew统计分析中一个属性
    # skewness偏斜系数，对正态分布的度量
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(dat[col],plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(dat[col])))
    plt.xlabel('')
    plt.ylabel('')
    
    #   散点图
    i+=1
    plt.subplot(frows, fcols, i)
    #     plt.plot(dat[var], dat['target'],'.',alpha=0.5)
    plt.scatter(dat[col], dat['target'], alpha=0.5)
    #计算相关性系数
    plt.title('corr=' + '{:.2f}'.format(np.corrcoef(dat[col], dat['target'])[0][1]))
    
    #     ！！！对数据进行了处理！！！
    #   数据分布图distribution
    i+=1
    plt.subplot(frows,fcols,i)
    trans_var, lambda_var = stats.boxcox(dat[col].dropna()+1)
    trans_var = minmax_scale(trans_var)
    sns.distplot(trans_var , fit=stats.norm)
    plt.title(col+' Tramsformed')
    plt.xlabel('')
    #     偏斜度
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(trans_var, plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
    plt.xlabel('')
    plt.ylabel('')
    
    #     散点图
    i+=1
    plt.subplot(frows,fcols,i)
    plt.plot(trans_var, dat['target'],'.',alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))
    plt.show()
    '''
    
    '''将数据进行box-cox转换，对每一列进行转换，再归一化'''
    #boxcox的目的：将数据变得更加正态分布化
    for col in data_all_norm.columns[:-2]:
    boxcox,maglog=stats.boxcox(data_all_norm[col]+1) #保证计算中没有0
    data_all_norm[col]=minmax_scale(boxcox)
    
    '''使用不同的算法进行训练'''
    #异常值
    ridge=RidgeCV(alphas=[0.0001,0.001,0.01,0.1,0.2,0.5,1,2,3,5,10,20,30,50])
    condition=data_all_norm["origin"]=="train"
    x_train=data_all_norm[condition].iloc[:,:-2]
    y_train=data_all_norm[condition]["target"]
    ridge.fit(x_train,y_train) #算法拟合数据和目标值的时候，训练集不可能完全拟合
    y_hat=ridge.predict(x_train)#预测值和真实值之间偏差如果特别大，可以作为异常值，3sigma准则
    
    result=(y_train-y_hat).abs()>y_train.std()
    print(result.sum()) #有42个异常值
    
    #画图
    
    plt.figure(figsize=(12,6))
    axes=plt.subplot(1,3,1)
    axes.scatter(y_train,y_hat)
    axes.scatter(y_train[result],y_hat[result],c="red",s=20)
    axes=plt.subplot(1,3,2)
    axes.scatter(y_train,y_train-y_hat)
    axes.scatter(y_train[result],(y_train-y_hat)[result],c="red",s=20)
    axes=plt.subplot(1,3,3)
    (y_train-y_hat).hist(bins=50,ax=axes)
    (y_train-y_hat)[result].plot.hist(bins=50,ax=axes,color="red")
    plt.show()
    
    
    '''将异常值点过滤'''
    drop_index=result[result].index#找到异常值的索引
    data_all_norm.drop(drop_index,axis=0,inplace=True)
    #data_all_std (4813, 34)
    print(data_all_norm.shape) #(4775, 34) 共删除了38个异常值点
    
    def detect_model(estimators,data):
    for key,estimators in estimators.items():
        estimators.fit(data[0],data[2])
        y_=estimators.predict(data[1])
        mse=mean_squared_error(data[3],y_)
        print("----------MSE%s"%(key),mse)
        r2=estimators.score(data[1],data[3])
        print("----------R2%s" % (key), r2)
        print("\n")
    
    X=data_all_norm[data_all_norm["origin"]=="train"].iloc[:,:-2]
    Y=data_all_norm[data_all_norm["origin"]=="train"]["target"]
    data_use=train_test_split(X,Y,test_size=0.2)
    estimators={}
    
    
    #对于测试数据而言，KNN,lasso，elasticnet，svm_poly的mse过于大，所以删掉
    estimators["linear"]=LinearRegression()
    estimators["ridge"]=Ridge()
    estimators["forest"]=RandomForestRegressor(n_estimators=300)
    estimators["gbdt"]=GradientBoostingRegressor(n_estimators=300)
    estimators["ada"]=AdaBoostRegressor(n_estimators=300)
    estimators["Extra"]=ExtraTreesRegressor(n_estimators=300)
    estimators["svm_rbf"]=SVR(kernel="rbf")
    estimators["LGB"]=LGBMRegressor(n_estimators=300)
    estimators["xgboost"]=XGBRegressor(n_estimators=300)
    cond2=data_all_norm["origin"]=="train"
    xtrain=data_all_norm[cond2].iloc[:,:-2]
    ytrain=data_all_norm[cond2]["target"]
    print(xtrain.shape)
    print(ytrain.shape)
    
    cond3=data_all_norm["origin"]=="test"
    xtest=data_all_norm[cond3].iloc[:,:-2]
    print(xtest.shape)
    
    
    predict1=[]
    #将每个算法对于训练集和测试集的预测作为特征加入到训练集和测试集作为新的特征
    #最终预测加入测试集,集成算法，将每个算法的结果合并
    # for key,model in estimators.items():
    #     model.fit(xtrain,ytrain)
    #     y_predict_train=model.predict(xtrain)
    #     xtrain[key]=y_predict_train
    #     y_predict=model.predict(xtest)
    #     # print(y_predict.shape)
    #     xtest[key]=y_predict#将预测值作为新的特征，让算法进行再学习
    
    #最终预测加入测试集,集成算法，将每个算法的结果合并
    for key,model in estimators.items():
    model.fit(xtrain,ytrain)
    y_estimate=model.predict(xtrain)
    predict1.append(y_estimate)
    
    y_final=np.mean(predict1,axis=0)
    mse=mean_squared_error(ytrain,y_final)
    print(mse)
    # print(y_final)
    # y_final+=np.random.randint(1925)*0.1
    pd.Series(y_final).to_csv("./天池蒸汽项目预测值222",index=False)
    # sns.distplot(y_final) 观测分布
    # plt.show()

全部评论 (0)

还没有任何评论哟~

sklearn(9):天池蒸汽项目预测

整体思路导入数据后，将训练集和测试集粘合特征搜索，通过观察每个特征下训练集和测试集的数据的取值范围以及分布情况，将分布不均匀的特征项删除特征相关性处理：将每一个特征与训练集的目标值计算相关性，删...

天池工业蒸汽量预测

天池工业蒸汽量 importnumpyasnp importpandasaspd importmatplotlib.pyplotasplt importseabornassns画图 fromsklea...

天池大赛——工业蒸汽量预测

本文记录的是工业蒸汽量赛题，链接：AI训练营计算机视觉-阿里云天池赛题背景火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系...

天池工业蒸汽量预测代码及详解

文章目录 1、赛题介绍 2、数据梳理 3、建模过程 4、总结 1、赛题介绍赛题背景火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这...

综合回归算法天池工业蒸汽量预测

importnumpyasnp importpandasaspd importmatplotlib.pyplotasplt %matplotlibinline importseabornassns f...

【天池新人赛-工业蒸汽量预测】1.代码参考

importmatplotlib importmatplotlib.pyplotasplt %matplotlibinline importwarnings warnings.filterwarnin...

机器学习实战----天池蒸汽量预测（完整代码）

赛题背景火力发电就是燃料燃烧加热水生成蒸汽，蒸汽产生的压力推动汽轮机旋转，进而带动电机旋转，产生电能。其中一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即加热水产生的蒸汽量。而影响锅炉燃...

工业蒸汽预测

工业蒸汽预测 1.导入包和数据 2.数据探索EDA 2.1画箱型图探索数据 2.1查看数据分布图 2.3合并训练集和测试集数据，并可视化训练集和测试集数据特征分布图 2.3.1可视化线性回归关系 2....

天池数据竞赛 | 工业蒸汽量预测（完整代码分享）

BY：乔木目录题目描述一、导入数据观察数据二、特征工程三、模型训练模型1:Lasso回归模型2:支持向量回归（SVR）模型3:XGB回归（XGBRegressor）四、模型评估五、...

天池项目——二手车预测（一）

originfrom:datawhale 文章目录 Baseline 数据分析导入，读取并了解数据大致信息，判断缺失值和异常值并进行丢弃/替换补值处理查看数据大致形态如分布、峰度、偏值等，必要的话...

是否确定退出登录?

sklearn(9):天池蒸汽项目预测

整体思路

其他可能减小MSE的方法

代码1：使用标准化进行预测

代码2：使用归一化+boxcox方法进行预测

全部评论 (0)

相关文章推荐

sklearn(9):天池蒸汽项目预测

天池工业蒸汽量预测

天池大赛——工业蒸汽量预测

天池工业蒸汽量预测代码及详解

综合回归算法 天池工业蒸汽量预测

【天池新人赛-工业蒸汽量预测】1.代码参考

机器学习实战----天池蒸汽量预测（完整代码）

工业蒸汽预测

天池数据竞赛 | 工业蒸汽量预测（完整代码分享）

天池项目——二手车预测（一）

综合回归算法天池工业蒸汽量预测