Advertisement

数据挖掘 文本分类(一) 综述

阅读量:

本学期选修了北邮王晓茹老师的《数据仓库与数据挖掘》课程。其中第一个实验属于基础入门级的实践项目:文本分类任务。第一次独立编写代码耗时较长,在此将实验成果进行总结和分享。

一, 先简单说下实验的工具和环境。

代码环境:Python2.7

Python学习建议廖雪峰老师的网站:http://www.liaoxuefeng.com

该分词软件由中科院院士张华平主导开发,并基于汉语文法分析平台ICTCLAS(Institute of Computing Technology, Chinese Language and Culture Analysis System)运行。

链接:http://ictclas.nlpir.org/

中文语料库:搜狗中文语料库

链接:http://www.sogou.com/labs/dl/c.html

文本训练与评估用的处理软件和测试工具:由台湾大学林智仁(Lin Chih-Jen)及其团队开发设计的lib-svm

二,介绍一下实验过程

按照老师的指示最好自行编写爬虫代码来获取具有明确分类的20,000篇文章进行实验分析。然而由于个人编程能力有限 并未自行进行数据采集工作而是采用了搜狗中文语料库作为数据来源

我们现在将开始实验流程。首先介绍所使用的数据源——搜狗中文语料库已被系统划分成多个类别。我们将每一类的内容进一步划分为两部分:一部分作为训练集(training set),另一部分作为测试集(test set)。其中训练集是指被划分出来能够代表该类别典型特征的一组数据;而测试集则指用于验证模型性能的数据集合。具体来说,在这一阶段中我们将一部分文章经过预处理后提取出其特征信息并将其作为训练数据;接着利用这些特征信息对测试集中未见的文章进行分类任务的学习与评估工作。由于测试集中每一篇文章的真实类别归属已经被明确标注过我们可以通过计算分类器输出结果与真实标签之间的匹配程度来量化模型的表现效果即通过计算分类正确率(accuracy)和召回率(recall)等指标来评估模型的整体性能表现

注:此图源自北邮2013级某学长的实验报告中但其作者信息未明确说明。

有了语料库后, 下一步是进行数据预处理工作。具体步骤如下: 首先进行分词, 提取名词信息, 去除常见停用词, 统计各词汇出现频率, 计算χ²(或TF-IDF)值, 最后按照libsvm接口的要求整理格式

今天先到这里,有时间继续哈。

贴一下学长的流程图:

全部评论 (0)

还没有任何评论哟~