Advertisement

数据挖掘实训 Week 1

阅读量:

理论学习

  • 混淆矩阵(Confuse Matrix)

    • 若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
    • 若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
    • 若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
    • 若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )
  • ROC(Receiver Operating Characteristic)
    ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
    TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。 TPR = \frac{TP}{TP + FN} FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。 FPR = \frac{FP}{FP + TN}

  • AUC(Area Under Curve)
    AUC被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

实践

  • 实践了baseline方案的数据预处理环节

全部评论 (0)

还没有任何评论哟~