Advertisement

机器学习——数据清洗

阅读量:

机器学习——数据清洗

  • 模糊查询与替换

  • 混淆矩阵、TPR与FPR

    • 混淆矩阵
    • 查出率TPR与查错率FPR
  • 特征工程

模糊查询与替换

  • fuzzywuzzy.fuzz
    • 返回匹配相似度
    • fuzz.ratio
    • fuzz.partial_ratio
    • fuzz.token_sort_ratio
    • fuzz.token_set_ratio
复制代码
    from fuzzywuzzy import fuzz
    # 简单匹配
    fuzz.ratio("I love python", "I love python!")
    # 输出结果
    96
    
    # 非完全匹配
    fuzz.partial_ratio("I love python", "I love python!")
    # 输出结果
    100
    
    # 忽略顺序匹配
    fuzz.token_sort_ratio("I love python", "python I love")
    # 输出结果
    100
    
    # 去重子集匹配
    fuzz.token_set_ratio("I love love python python", "python I love")
    # 输出结果
    100
  • fuzzywuzzy.process
    • 用来返回模糊匹配的字符串和相似度。
    • process.extract
    • process.extractOne
复制代码
    sets = ["I love python", "I love python!", "python is my favorite"]
    process.extract("I like python", sets, limit=2)
    # 输出结果
    [('python is my favorite', 86), ('I love python', 85)]
    
    process.extractOne("cowboys", choices)
    # 输出结果
    ('python is my favorite', 86)

混淆矩阵、TPR与FPR

混淆矩阵

在这里插入图片描述

查出率TPR与查错率FPR

TPR是所有真实结果中正例查出的比例:
TPR = \frac{TP}{TP+FN}
FPR是所有真实结果中反例查出是正例的比例:
FPR=\frac{FP}{FP+TN}

特征工程

参见以下两篇博文:
特征抽取
特征处理

全部评论 (0)

还没有任何评论哟~