数据挖掘竞赛题目 -- 文本分类
发布时间
阅读量:
阅读量
通过阅读某公众号上的两个题目, 其逻辑非常简单, 现在将它们记录下来以便以后有机会再仔细琢磨一下(数据在文末).
竞赛简介
使用搜狗语料库进行自动文本分类
数据描述
新闻语料中类别与目录的对应关系如下,共十大类别:
- C000007 汽车
- C000008 财经
- C000010 IT
- C000013 健康
- C000014 体育
- C000016 旅游
- C000020 教育
- C000022 招聘
- C000023 文化
- C000024 军事
在Data存储区域中存放着训练文档集合(train)与测试文档集合(test)。其中train目录下共有6,000份经过标注完成的文档,每个类别下共有6,000份文件;而test目录总计2万份来自各类别的测试样本,则要求参赛者搭建一个基于此数据集的机器学习分类系统,并通过智能识别模块实现对未知样本的自动归类功能。
任务描述
-
构建高质量的分类器,并对位于test目录下的所有文档进行自动化分类。
-
输出最终分类成果, 其中将位于test目录下的每个文档自动分配至编号分别为C系列的相应文件夹中, 并完成整体打包处理。
-
构建高质量的分类器,并对位于test目录下的所有文档进行自动化分类。
-
输出最终分类成果, 其中将位于test目录下的每个文档自动分配至编号分别为C系列的相应文件夹中, 并完成整体打包处理。
评价标准
评分算法:F1-Measure:
分别对每一个类别单独计算其F1值,并随后计算这十个类别的平均F1值得作为最终的评分依据
全部评论 (0)
还没有任何评论哟~
