Advertisement

数据挖掘竞赛题目 -- 文本分类

阅读量:

通过阅读某公众号上的两个题目, 其逻辑非常简单, 现在将它们记录下来以便以后有机会再仔细琢磨一下(数据在文末).

竞赛简介

使用搜狗语料库进行自动文本分类

数据描述

新闻语料中类别与目录的对应关系如下,共十大类别:

  • C000007 汽车
  • C000008 财经
  • C000010 IT
  • C000013 健康
  • C000014 体育
  • C000016 旅游
  • C000020 教育
  • C000022 招聘
  • C000023 文化
  • C000024 军事

在Data存储区域中存放着训练文档集合(train)与测试文档集合(test)。其中train目录下共有6,000份经过标注完成的文档,每个类别下共有6,000份文件;而test目录总计2万份来自各类别的测试样本,则要求参赛者搭建一个基于此数据集的机器学习分类系统,并通过智能识别模块实现对未知样本的自动归类功能。

任务描述

  1. 构建高质量的分类器,并对位于test目录下的所有文档进行自动化分类。

  2. 输出最终分类成果, 其中将位于test目录下的每个文档自动分配至编号分别为C系列的相应文件夹中, 并完成整体打包处理。

  3. 构建高质量的分类器,并对位于test目录下的所有文档进行自动化分类。

  4. 输出最终分类成果, 其中将位于test目录下的每个文档自动分配至编号分别为C系列的相应文件夹中, 并完成整体打包处理。

评价标准

评分算法:F1-Measure:

分别对每一个类别单独计算其F1值,并随后计算这十个类别的平均F1值得作为最终的评分依据


数据链接: http://pan.baidu.com/s/1eS6WSl8

全部评论 (0)

还没有任何评论哟~