天池AI大赛 智能制造预测赛题
一、赛题与要求的简单介绍 (多特征少样本问题)
本次比赛涵盖了生产线上各环节的生产数据(其中具体含义尚不明确),基于这些数据信息,在此基础上提取关键特征,并在此基础上建立相应的模型来进行预测。采用均方误差作为评判依据,在此过程中计算每个样本预测值与实际值之间的差异程度。将结果进行汇总并取平均值得出最终评分标准。
二、数据描述
这些列为ID字段、工作台字段以及数据字段,并各自具有特定的命名规则。这些列为依据工作台标识被系统划分为十三个工艺流程。任意两个工作台字段之间所对应的数据被视为一个工艺流程。由于对原始特征进行脱敏处理后生成的数据集的具体意义难以推断。每个工作台字段中的各项记录并非严格遵循时间序列排列。其中部分工作台字段存在大量缺失值,并且还有多个字段仅记录了一个有效的数值。此外,在某些情况下还有多个字段的内容完全相同。
对于每一个字段,在各个数据集中其分布情况都明显受到所使用的工具的影响。某些数据集中缺失值已经被0或其他异常值来替代。
三、数据预处理
1、按照工序分配。全部数据集根据工装夹具分类为不同作业环节。
2、通过数值分析,将chamber_id字段与tool字段进行整合,并处理operation_id
和chamber作为工具列进行工具划分。


2、数据清洗
将单一值列、空值列、重复列删除
3、将8位、16位等日期格式转换为从2016.1.1以来的秒数
4、将空白值(0与NA)填充为同一列其他非空值得平均值。
四、特征构建
1、将计算单因子和双因子交互列并纳入备选特征;
(1)X为特征原始值,Xerr为原始值与该列平均值之差,取绝对值得到Xerrabs

(2)对双因子(设为X和Y)建立X+Y,X-Y,X/Y、Y/X的特征向量。

2、备选特征筛选
既然一列能生成三个特征、一对列能够创造出十五个双因子特征、那么就会出现大量备选特征、因此需要对这些初步筛选出的候选特征进行进一步评估、具体来说、在数据预处理阶段我们通常会采用这种方法:计算各列与目标变量之间的皮尔逊相关系数、并将相关性较高的那些变量纳入候选集合中
3、模型选取尝试过SVR、LASSO、GBDT以及模型融合等。最终用了xgboost。
