Advertisement

数据挖掘第四周周报

阅读量:
  • 数据挖掘第四周周报

  • 1、本周工作

    • 本周主要是实现了神经神经网络在数据集上的初步运用,在经过主观降维的数据集处理以后,对测试集进行了分类,并得到了结果。如图所示:

得到了与0.5不符的结果,并由此推断神经网络仍具一定的作用,在调整迭代次数及优化训练集配置后仍未能显著提升性能水平;鉴于此情况, 我开始思考是否需要重新审视并进一步优化特征工程

过去几天我都在专注于数据特征工程,在知乎平台以及谷歌资源的支持下,我系统性地探索了许多降维技术。这些技术包括低方差筛选法、缺失值剔除法、高度相关筛选法以及主成分分析法等

复制代码
    trainData[numerical_fea] = trainData[numerical_fea].fillna(trainData[numerical_fea].median())
    testAData[numerical_fea] = testAData[numerical_fea].fillna(testAData[numerical_fea].median())
    
    mm = MinMaxScaler()
    data = mm.fit_transform(data)
    
    pca = PCA(n_components = 10,copy=True)
    data = pca.fit_transform(data)

在该链接中的内容中,请依据具体要求完成对数据集的特征工程处理工作:首先需要对缺失值进行填补操作;其次应执行数据分箱处理;最后需要将字符串类型的数据转换为数值形式以便后续分析使用。

在面对数据集降维时遇到了诸多复杂的方法难以选择合适的方案, 需要耐心逐一探索. 同时, 是否应该综合运用多种分类技术来提升学习效果仍是个值得深思的问题. 在计算效率方面, 如何优化计算效率也是一个重要的挑战.

全部评论 (0)

还没有任何评论哟~