Advertisement

中科院分词系统整理笔记

阅读量:

NLPIR是一款针对原始文本集进行处理和加工的软件,支持多种编码、操作系统和开发语言,提供分词、检索、统计分析、聚类、分类过滤、摘要生成、关键词提取、文档去重、正文提取等功能。新增功能包括全文精准检索、新词发现、分词标注、统计分析与术语翻译、大数据聚类及热点分析、自动摘要、关键词提取、文档去重、HTML正文提取、编码自动识别与转换等。软件采用层叠隐马模型、深度神经网络等先进技术,支持新闻分类、简历分类、品牌报道监测等应用。下载地址可通过官网或GitHub获取,支持多种语言和平台的导入工程配置。

NLPIR简介

基于原始文本数据集设计的一套处理与加工系统,提供中间件处理效果的直观展示,同时具备处理小规模数据集的能力。该系统支持用户对自身数据进行处理与分析。

NLPIR分词系统前身是 ICTCLAS 于 2000 年推出的词法分析系统。自 2009 年起,为区别原有工作领域并致力于构建共享的 NLPIR 自然语言处理与信息检索平台,系统经过改名,正式定名为 NLPIR 分词系统。该系统新增功能项达十一项。

NLPIR 系统支持多样化的编码方案,包括GBK、UTF8以及BIG5编码方式;同时涵盖多种主流操作系统,包括Windows、Linux和FreeBSD等;此外,系统还支持多种开发语言与平台,如C/C++/C#、Java、Python以及Hadoop等。

新增功能

**** 全文精准检索-JZSearch:支持多数据类型、多字段、多语言;

新词发现:挖掘新词列表

分词标注任务:对原始文本进行分词处理,自动识别人名、地名、机构名等非登录词汇,新增词汇标注和词性标注。在分析过程中,可导入用户自定义的词典信息。

统计分析和术语翻译方面,本系统实现了单个词的频率统计以及两个词语之间转移的概率统计方法。此外,对于常用术语,系统会自动提供英文对照。

该系统通过大数据聚类分析及热点事件识别,能够对数据进行分类整理,并对识别出的关键事件进行深入分析,提取其相关话题的核心特征。

大数据分类过滤:从海量文档中筛选出符合需求的样本。

自动摘要-Summary:该系统旨在对单篇或多篇文章进行分析,自动提取关键信息,从而帮助用户快速浏览核心内容。

关键词提取-KeyExtract:该方法能够实现对单篇文章或文章集合进行关键词提取,具体表现为能够提取出若干个代表文章中心思想的词汇或短语。该系统不仅能够实现关键词提取,还能够将提取出的关键词应用于精化阅读体验、提升语义检索的准确性以及实现快速匹配的需求等。

RedupRemover:文档去重功能,能够高效且精确地识别文件集合或数据库中的重复或相似内容,并通过智能算法自动定位并标记所有重复内容。

HTML正文提取-HTMLPaser:该系统能够自动去除非导航类网页中的HTML标签、导航信息以及广告内容,专注于提取出高质量的正文内容。该功能适用于大规模互联网信息的预处理和分析任务。

编码自动识别与转换:该系统能够自动识别并转换文档中的编码格式。目前支持包括Unicode、BIG5和UTF-8等多种编码格式的自动转换,主要目标是将这些格式转换为简体GBK编码。同时支持繁体BIG5和繁体GBK编码的繁简转换。

相关技术

1.网络信息实时采集与正文提取

NLPIR大数据搜索与挖掘演示平台基于新浪rss摘要系统,通过NLPIR的精准网络采集系统实时抓取新浪最新资讯(每刷新一次,系统会自动获取最新内容)。随后,采用NLPIR正文提取系统,可以去除网页中的导航信息和广告。通过网络文本链接密度作为主要参数,结合深度神经网络模型,实现对网页正文内容的自动提取。用户还可以通过任意输入的方式,补充或调整搜索结果。

2.基于层叠隐马模型的分词标注

NLPIR/ICTCLAS分词系统基于层叠隐马尔可夫模型(算法细节请参照:张华平、高凯、黄河燕、赵燕平,《大数据搜索与挖掘》,科学出版社,2014年5月,ISBN:978-7-03-040318-6),分词准确率达到98.23%,具有分词准确率高、速度快且适应性强等显著优势。该系统能够真正理解中文内容,运用机器学习技术解决歧义切分和词性标注问题。张博士历时十余年精心打造该系统,分内核升级共10次,累计服务全球30余万用户。

3.基于角色标注的实体抽取

NLPIR实体抽取系统具备识别文本中人名、地名、机构名、媒体、作者及关键信息点的能力,所提取的词语无需预先存在于词典中,而是基于对语言规律的深入理解和预测。NLPIR实体抽取系统基于角色标注算法实现命名实体识别(算法细节参考:张华平、高凯、黄河燕、赵燕平合著《大数据搜索与挖掘》科学出版社2014年5月ISBN:978-7-03-040318-6),在此基础上可构建多种多样化的大数据挖掘应用。

4.基于完美双数组TRIE树的词频统计

NLPIR的词频统计方法效率较高,采用了创新专利算法(近期有进一步优化),是常规算法速度的十倍以上。该算法的效率不会随着统计结果数量急剧增加而呈指数级增长,而是呈现亚线性增长趋势。建议大家调用NLPIR/ICTCLAS提供的开放词频统计接口。

5。基于深度机器学习的文本分类

NLPIR通过深度神经网络对分类体系进行了系统性训练,目前训练的类别主要涉及厂家的政治、经济、军事等方面。我们内置的算法支持类别自定义训练,该算法在常规文本分类方面表现出色,综合开放测试的F值达到86%。NLPIR的深度文本分类技术适用于新闻分类、简历分类、邮件分类、办公文档分类以及区域分类等多个应用场景。此外,该系统还具备文本过滤功能,能够快速从海量文本中筛选出符合特定要求的信息,适用于品牌报道监测、垃圾信息屏蔽以及敏感信息审查等领域。

6。基于深度神经网络的文本情感分析

NLPIR情感分析包含两种模式:一种是基于全文的语义识别(左图所示),另一种是针对特定对象的情感识别(右图所示)。该方法主要包含两个核心技术:首先,通过共现关系实现情感词的自动识别与权重自动计算,利用自监督学习方法反复迭代优化,生成新的情感词汇及其权重;其次,基于深度神经网络对情感词汇进行扩展计算,综合得到最终的情感分析结果。

7。基于上下文条件熵的关键词提取

NLPIR关键词提取基于对文章核心思想的全面理解,能够精准提取代表语义内容的关键词汇或短语。这些结果可应用于精准阅读、语义检索以及快速匹配等任务。NLPIR主要通过交叉信息熵计算候选词的上下文条件熵,该方法适用于跨行业领域文档处理,同时能够识别出新兴词汇并赋予其相应的权重值。

8.基于POS-CBOW的word2vec语义扩展

该方法融合了词性信息和词的分布特征,基于改进的word2vector模型,在训练5GB新闻语料时,能够通过训练过程自动提取语义关联关系。若将训练文本调整为专业领域内的生文本,该模型同样能够生成专业领域内的本体关联关系。

9.基于全局结构预测模型的转移依存句法分析

该系统采用Yamada算法构建了基于结构化转移依存句法的分析模型。在此算法基础上,增加了全局训练和预测功能,从而提升了特征集合的完整性。该模型的准确率达到85.5%,略低于当前依存句法分析领域的最优水平(86.0%)。在所有精度超过85%的依存句法模型中,该系统实现了最快速的分析速度。

10.简繁转化

NLPIR根据中文简繁词库,对照抽取互译。

11.基于隐马模型的自动注音

NLPIR可根据词库,基于语意理解,对字词自动进行语音标注。准确率99%

12.基于关键词提取的自动摘要

该中间件具备自动精炼提炼功能,能够从长篇冗长的文章中通过智能识别筛选出关键句和重点段落,生成摘要内容,帮助用户快速浏览和理解文本内容,显著提升工作效率。

该中间件不仅能够为单篇文档生成连贯的摘要,还具备从多个具有相同主题的文档中消除重复内容并产出一篇简洁明了的摘要的能力;用户可以根据需求自由设置摘要的长度、比例以及其他相关参数;该系统在处理能力方面表现突出,每秒可处理二十篇文档。

**下载地址
**

NLPIR的下载地址:http://ictclas.nlpir.org/downloads。该链接为NLPIR的官方下载页面,您可以在此获取所需资源。

GitHub的地址:https://github.com/NLPIR-team/NLPIR

导入工程

官网版:

请创建一个新工程,并将其配置到sample目录下的Java工程目录JnaTest_NLPIR中。导入后,您将看到项目的基本设置已正确配置。

(2)code目录下的NlpirTest.java文件就可以测试。

有两个地方需要配置参数值:

第一:加载库文件

第二:初始化时需要的参数

“XXXX”为解压后的包路径。

Github上下载的代码:

(1)找到NLPIR SDK目录的NLPIR-ICTCLAS导入工程,结果如下:

(2)使用nlpir下的NlpirTest.java进行测试。

注意:该份文件属于单元测试。在需要测试的方法上右键点击,选择“Unit Test”即可。

可能会涉及license问题,将License文件夹下的所有.user文件移动到Dada目录下即可。

至此,两种方式都可以跑起来了。



全部评论 (0)

还没有任何评论哟~