机器学习——数据清洗
发布时间
阅读量:
阅读量
机器学习——数据清洗
-
模糊查询与替换
-
混淆矩阵、TPR与FPR
-
- 混淆矩阵
- 查出率TPR与查错率FPR
-
特征工程
模糊查询与替换
- fuzzywuzzy.fuzz
- 返回匹配相似度
- fuzz.ratio
- fuzz.partial_ratio
- fuzz.token_sort_ratio
- fuzz.token_set_ratio
from fuzzywuzzy import fuzz
# 简单匹配
fuzz.ratio("I love python", "I love python!")
# 输出结果
96
# 非完全匹配
fuzz.partial_ratio("I love python", "I love python!")
# 输出结果
100
# 忽略顺序匹配
fuzz.token_sort_ratio("I love python", "python I love")
# 输出结果
100
# 去重子集匹配
fuzz.token_set_ratio("I love love python python", "python I love")
# 输出结果
100
- fuzzywuzzy.process
- 用来返回模糊匹配的字符串和相似度。
- process.extract
- process.extractOne
sets = ["I love python", "I love python!", "python is my favorite"]
process.extract("I like python", sets, limit=2)
# 输出结果
[('python is my favorite', 86), ('I love python', 85)]
process.extractOne("cowboys", choices)
# 输出结果
('python is my favorite', 86)
混淆矩阵、TPR与FPR
混淆矩阵

查出率TPR与查错率FPR
TPR是所有真实结果中正例查出的比例:
TPR = \frac{TP}{TP+FN}
FPR是所有真实结果中反例查出是正例的比例:
FPR=\frac{FP}{FP+TN}
特征工程
全部评论 (0)
还没有任何评论哟~
