数据挖掘算法和实践(十九):特征工程/模型评估
发布时间
阅读量:
阅读量
数据分析的核心环节包括特征工程和模型评估两个关键步骤。其中,特征工程决定了模型的表现质量,在真实场景中尤为重要;而模型评估则通过使用不同的指标(如准确率、精度、召回率等)对模型进行打分并选择最优方案。每个评估指标都有其局限性,在分类、排序或回归等问题中需合理运用这些指标以避免得出错误结论。
对常规数据分析相关知识进行了介绍,在实际应用环境中,
特征工程与模型评估被视为两个关键步骤,
其对于模型性能的影响至关重要,
而后者负责对model进行评价并进行优化选择。
在众多的评价指标来看,
在分类任务中使用AUC指标较为合适;
而对于排序任务,则倾向于采用NDCG指标;
至于回归任务,则常用MSE或RMSE等指标来进行评估。
一、特征工程

基于机器学习技术的模型构建及其验证过程
准确率(accuracy):它表示正确分类的对象数量与总样本量之比;一般而言,在分类器性能评价中准确性水平越高,则其性能越佳
Precision(精度):它代表了在所有真实正例中被正确分类的比例,并评估了分类器在识别正例方面的性能水平。
召回率/灵敏度即为所有实际阳性样本中被正确分类的比例,并反映了该分类系统在识别阳性样本方面的性能水平。
ROC曲线: 位于左上方位置的ROC曲线上某一点通常被视为最佳判别点;该点对应的假正例数量和假反例数量均达到最小。
待续。。。
全部评论 (0)
还没有任何评论哟~
