数据挖掘文本分类（一）综述

阅读量：

本学期选修了北邮王晓茹老师的《数据仓库与数据挖掘》课程。其中第一个实验属于基础入门级的实践项目：文本分类任务。第一次独立编写代码耗时较长，在此将实验成果进行总结和分享。

一，先简单说下实验的工具和环境。

代码环境：Python2.7

Python学习建议廖雪峰老师的网站：http://www.liaoxuefeng.com

该分词软件由中科院院士张华平主导开发，并基于汉语文法分析平台ICTCLAS（Institute of Computing Technology, Chinese Language and Culture Analysis System）运行。

链接：http://ictclas.nlpir.org/

中文语料库：搜狗中文语料库

链接：http://www.sogou.com/labs/dl/c.html

文本训练与评估用的处理软件和测试工具：由台湾大学林智仁(Lin Chih-Jen)及其团队开发设计的lib-svm

二，介绍一下实验过程

按照老师的指示最好自行编写爬虫代码来获取具有明确分类的20,000篇文章进行实验分析。然而由于个人编程能力有限并未自行进行数据采集工作而是采用了搜狗中文语料库作为数据来源

我们现在将开始实验流程。首先介绍所使用的数据源——搜狗中文语料库已被系统划分成多个类别。我们将每一类的内容进一步划分为两部分：一部分作为训练集（training set），另一部分作为测试集（test set）。其中训练集是指被划分出来能够代表该类别典型特征的一组数据；而测试集则指用于验证模型性能的数据集合。具体来说，在这一阶段中我们将一部分文章经过预处理后提取出其特征信息并将其作为训练数据；接着利用这些特征信息对测试集中未见的文章进行分类任务的学习与评估工作。由于测试集中每一篇文章的真实类别归属已经被明确标注过我们可以通过计算分类器输出结果与真实标签之间的匹配程度来量化模型的表现效果即通过计算分类正确率（accuracy）和召回率（recall）等指标来评估模型的整体性能表现

注：此图源自北邮2013级某学长的实验报告中但其作者信息未明确说明。

有了语料库后, 下一步是进行数据预处理工作。具体步骤如下: 首先进行分词, 提取名词信息, 去除常见停用词, 统计各词汇出现频率, 计算χ²（或TF-IDF）值, 最后按照libsvm接口的要求整理格式

今天先到这里，有时间继续哈。

贴一下学长的流程图：

全部评论 (0)

还没有任何评论哟~

数据挖掘文本分类（一）综述

本学期上了北邮王晓茹老师的数据仓库与数据挖掘课程，实验一便是数据挖掘入门级的实验：文本分类。第一次自己写代码花了很长时间终于把实验做完了，在这里记录一下。一，先简单说下实验的工具和环境。

Web数据挖掘综述

1\.基于WEB数据挖掘的分类根据挖掘的对象不同我们可以把基于WEB的数据挖掘分为三大类： ²基于WEB内容的挖掘（WebContentMining） ²基于WEB结构的挖掘（WebStructur...

文本分析概述（数据挖掘）

文本分析概述非结构化的数据通过向量空间模型转化为结构化的数据，并以表格的形式呈现，两种方式：分词算法与词频统计。结构化数据：计算机能够识别处理的数据；非结构化数据：视频、图形、图像、文本、语音等...

数据挖掘应用实例_数据挖掘综述

数据挖掘数据挖掘（DataMining，DM）又称数据库中的知识发现（KnowledgeDiscoverinDatabase，KDD）数据挖掘又称数据库中的知识发现（KnowledgeDiscov...

数据挖掘综述报告

1.数据挖掘产生于发展：在金融业方面,数据挖掘的应用突出表现在信用评估和防止欺诈等方面。PaoloGiudici和OliviaParrRud对利用神经网络、logistic回归和决策树方法进行信用评...

数据挖掘概念综述

一、什么是数据挖掘 1.1、数据挖掘的历史近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,...

关于数据挖掘的文献综述

作者：杨永钰摘要：数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别，读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法：包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算...

中文文本分类-新闻分类[数据挖掘]

对新闻文本（10类）进行文本分类，通过准确率、召回率、f1score等指标对分类结果进行分析。 python版本：python3.6 分类方法：朴素贝叶斯需导入的相关库 importos impor...

【数据挖掘】数据挖掘概述

一、数据挖掘产生的背景 1、从数据分析看数据政治算法、概率论与数理统计、数据挖掘 2、主要原因催生数据挖掘海量数据的分析需求应用对理论的挑战大数据的特征 3V——Volume（海量）、Vari...

数据挖掘竞赛题目 -- 文本分类

从某公众号看到两个题目,逻辑挺简单,现在记录下来,有时间琢磨琢磨数据在文末. 竞赛简介使用搜狗语料库进行自动文本分类数据描述新闻语料中类别与目录的对应关系如下，共十大类别： C000007汽车 ...

是否确定退出登录?

数据挖掘 文本分类（一） 综述

全部评论 (0)

相关文章推荐

数据挖掘 文本分类（一） 综述

Web数据挖掘综述

文本分析概述（数据挖掘）

数据挖掘应用实例_数据挖掘综述

数据挖掘综述报告

数据挖掘概念综述

关于数据挖掘的文献综述

中文文本分类-新闻分类[数据挖掘]

【数据挖掘】数据挖掘概述

数据挖掘竞赛题目 -- 文本分类

数据挖掘文本分类（一）综述

数据挖掘文本分类（一）综述