Advertisement

天池AI大赛 智能制造预测赛题

阅读量:

一、赛题与要求的简单介绍 (多特征少样本问题)

本次比赛涵盖了生产线上各环节的生产数据(其中具体含义尚不明确),基于这些数据信息,在此基础上提取关键特征,并在此基础上建立相应的模型来进行预测。采用均方误差作为评判依据,在此过程中计算每个样本预测值与实际值之间的差异程度。将结果进行汇总并取平均值得出最终评分标准。

二、数据描述

这些列为ID字段、工作台字段以及数据字段,并各自具有特定的命名规则。这些列为依据工作台标识被系统划分为十三个工艺流程。任意两个工作台字段之间所对应的数据被视为一个工艺流程。由于对原始特征进行脱敏处理后生成的数据集的具体意义难以推断。每个工作台字段中的各项记录并非严格遵循时间序列排列。其中部分工作台字段存在大量缺失值,并且还有多个字段仅记录了一个有效的数值。此外,在某些情况下还有多个字段的内容完全相同。

对于每一个字段,在各个数据集中其分布情况都明显受到所使用的工具的影响。某些数据集中缺失值已经被0或其他异常值来替代。

三、数据预处理

1、按照工序分配。全部数据集根据工装夹具分类为不同作业环节。
2、通过数值分析,将chamber_id字段与tool字段进行整合,并处理operation_id

和chamber作为工具列进行工具划分。

2、数据清洗

将单一值列、空值列、重复列删除

3、将8位、16位等日期格式转换为从2016.1.1以来的秒数

4、将空白值(0与NA)填充为同一列其他非空值得平均值。

四、特征构建

1、将计算单因子和双因子交互列并纳入备选特征;

(1)X为特征原始值,Xerr为原始值与该列平均值之差,取绝对值得到Xerrabs

(2)对双因子(设为X和Y)建立X+Y,X-Y,X/Y、Y/X的特征向量。

2、备选特征筛选

既然一列能生成三个特征、一对列能够创造出十五个双因子特征、那么就会出现大量备选特征、因此需要对这些初步筛选出的候选特征进行进一步评估、具体来说、在数据预处理阶段我们通常会采用这种方法:计算各列与目标变量之间的皮尔逊相关系数、并将相关性较高的那些变量纳入候选集合中

3、模型选取尝试过SVR、LASSO、GBDT以及模型融合等。最终用了xgboost。

全部评论 (0)

还没有任何评论哟~