【笔记】自然语言处理NLP---概论
(from 人文学院开设课程)
目录
- 1. 自然语言处理概论
-
- 1.1 自然语言处理研究的意义、发展历程与现状
-
- 1.1.1 自然语言的关键特征
- 1.1.2 自然语言处理研究的价值
- 1.1.3 国外研究动态
-
1.2 NLP领域的特征及其应用模式
* 1.2.1 理性思维与经验证据
* 1.2.2 基于语料库的经验研究:语言学探索
* 1.2.3 汉语处理的技术路径
* 1.2.4 借助知识图谱的知识驱动型深度学习模型构建
1. 自然语言处理概论
1.1 自然语言处理研究的意义、历史与现状
1.1.1 自然语言的特点
任何语言,在书写的形式上以及口语使用中都可能涉及手语等多种表现形式;它们都是由小的单位(如语素或音素)通过层次结构组织成较大的单元;这些较大的单元会逐步发展出音节、词汇、短语以及句子;这些又会进一步组织成段落与篇章层次。
这种递归模式由复杂的语法层次结构所支撑,在大脑组织中的人类与动物的区别主要体现在能够构建多层次信息处理系统以及识别并操作递归架构的能力上。相较于其他物种,在语言能力方面人类能够生成并解析出复杂的长句子。
语言展现千变万化的特点是丰富的多样性的存在。然而,在这种现象背后的原因是什么呢?尽管每个单独的语言都展现出独特的表达能力与语法规则( linguistics ),但所有自然语言共同拥有的基础结构使它们能够被系统地分类研究( syntax )。
从自然语言理解的角度看,《句子结构学》是研究句子内部各成分之间的关系,《语义分析》则致力于探究词语所代表的概念及其相互联系;相比之下,《言语行为学》则关注于对话双方所共有的背景知识及其互动情境;其中语言学领域涉及广泛的知识体系包括但不限于世界通用知识、历史学科背景、日常常识性信息以及各专业领域的深入研究等。
人类的知识是通过文字记录与影像资料以及个人经历来记录的。经过学习阶段的强化训练,并通过归纳总结经验教训,在由具体经验上升至理论层面的同时,也由实践经验过渡至理论探讨的过程中逐步地在实践中积累和完善。
人类语言的主要表达形式包括书面文字、口语以及手语等多种类型。在语言交流的发展过程中,最初的阶段是由口语主导的。其显著特点在于交流内容简明扼要。与书面语言相比,在日常对话中使用的常用词汇数量更多。
相较于口头语言而言,在历史上发展的时间相对较短的文字系统仅可持续约数千年。最早的汉字被认为始于距今三千年前的殷代甲骨文时期。属于象形文字的一种表现形式。与印欧语系的语言书写系统不同的是。
汉字的意义部分取决于其偏旁部首(包括音旁和义旁),因为书面语的文本资源相对来说较为容易获取,在研究方面也更为丰富。
人类能够高效地运用语言,在性能和效率方面均不及人脑。此外,在理解和处理语言时,计算机依赖人类知识存在诸多障碍。由于缺乏类似人脑灵活运用语用背景的能力,这使得计算机无法像人脑一样有效地解决自然语言中的各种歧义。
目前随着科学技术、仪器设备以及互联网技术的快速发展,语言学研究和自然语言处理有望在理论及方法层面实现突破
1.1.2 自然语言处理研究的意义
- 自然语言处理(NLP)是一项利用计算机理解和生成自然语言的技术学科。
它旨在探索如何借助计算机工具辅助人类对自然语言的学习与应用。
其研究方法主要基于数据支持下的定量分析模式。
也可称为自然语言理解(NLU)或计算语言学(CL)。
它是跨学科领域之一。 - 它的目标是实现计算机自动解析和模拟人类对文字信息的理解过程。
该系统以模仿人类大脑处理language认知机制为目标。
并以实验验证、理论推导以及数值计算等多方面为基础建立模型体系。
1.1.3 国外研究现状
自然语言处理的研究始于机器翻译。
1954年初期,在美国的乔治敦大学借助国际商用机器公司 (IBM)的力量,在IBM-701机上完成了第一台自动翻译装置的成功测试。
改写说明
当时20世纪70年代末期,在计算机科学领域中出现了许多知名的自然语言处理系统,并标志着这一领域迈入了新的发展阶段。
80年代初左右, 各种新型语法体系开始兴起; 包括 GPSG、LFG 和 FUG 等多种类型。借助这些新型语法体系应用复杂特征集以及功能合一技术, 使得自然语言处理能力较以前采用单一标记的方式有了显著提升。
九十年代初,在国际学术界掀起了一股关于**语料库语言学 (Corpus Linguistics)**的研究热潮。这种研究方法为机器理解自然语言提供了新的研究思路。
在语料库建设方面:
- 1964年美国Brown University建立了100万词的标准美语语料库,并对其进行了语法和句法标注。
- 英国国家语料库拥有1亿词规模的数据量,并与两亿词的Birmingham英语语料库共享资源;
- 美国计算语言学领域拥有一亿规模的美语文本研究数据库;
- 赫尔辛基大学提供了千万规模的历史英语文本数据库;
- 法国拥有上亿规模的法语文本研究数据库。
- 在文本处理方面也实现了从单向的词性标注向综合性的语法结构(句法)与意义理解(语义)双维度标注水平的进步。
在语言知识库的构建方面:
由美国普林斯顿大学智能科学实验室开发出的**英语词汇语义数据库WordNet(词网)**于1990年正式发布,并迅速引发后续广泛的关注。众多研究人员将其作为工具进行英语语料库的语义标注与词义识别。
随后,在WordNet的基础上发展起来的FrameNet(框架网络)项目因此获得资金支持,并由加州国际计算机研究所与加州大学伯克利分校语言学系共同研发。
微软公司也在抓紧开发MindNet 。
自1996年起就致力于开发出一个覆盖荷兰语、意大利语及西班牙语的多语言词库与语义资源库——EuroWordNet
这些工程的开发为语义知识体系的构建进行了有益的探索。
ACL(Association of Computational Linguistics)会刊《Computational Linguistics》每年定期举行ACL会议,并致力于介绍自然语言处理理论与系统设计等前沿技术作为参考资料供计算语言学家、人工智能专家、认知科学家、语音处理专家及心理学家研究者参考使用。
国际互联网上有关自然语言处理的几个专业网站可以参看:
- 计算语言学学会为其官方网站(http://www.aclweb.org),在其官方网站上(http://www.aclweb.org/u/db/acl/),专门提供自然语言处理相关资源的在线搜索服务(以便人们快速定位所需网页)。
- http://xxx.lanl.gov/archive/cs/专门提供高质量的电子版学术论文(特别是自然语言处理及相关领域)。
- http://www.ldc.upenn.edu/为其官方网站(Language Data Consortium, LDC),致力于推动语言数据研究与应用。
目前国内计算语言学和自然语言处理的研究基础性课题主要有:
自然语言处理中的语法与语义解析研究方向包括:语言数据构建与预处理技术开发;以语料为基础的语言分析策略设计;机器翻译系统及其评估方案制定;信息检索系统中的文本搜索模块构建;智能化摘要生成器开发;内容校对工具的应用研究;OCR技术支持的文字识别技术优化;以及智能化汉字输入优化算法及其人机交互设计等
1.2 NLP的方法、特点和规律
1.2.1 理性主义与经验主义
理性主义的方法论框架通常主要遵循一套具体的操作规范或程序流程 ,通过将其视为一种形式化的符号系统进行自然语言的解析与构建 。这种系统性特征使得我们可以从其内部的组成要素及其相互关联关系中推导出相应的语义信息;
在典型的自然语言处理系统中, 按照预设的人工语法对输入句子进行语法规则解析, 然后通过一组语义规则将语法符号转换为意义符号. 系统中的规则集合通常是预先设定好的, 即是由人类预先设计并将其传授给机器使用的, 这体现了典型的理性主义方法.
经验主义的研究主要依赖于统计学与神经网络学习的结合。统计学技术旨在构建基于数据的语言处理模型,并通过训练语料库来确定模型参数。神经网络系统通过分析输入与输出间的关联关系进行学习,并根据这些模式调整内部连接强度以实现输入到输出的映射。
简而言之,理性主义强调基于规则的方法,经验主义强调基于学习的方法。
1.2.2 语料库语言学:经验主义研究方法
自上世纪七十年代以来逐步应用概率模型取代原有的基于规则的识别手段
基于概率模型的方法在识别效果方面远超常规方法,这一发现为自然语言处理领域提供了宝贵的参考依据.研究文本语料库的目的在于揭示其中蕴含的语言使用规律,从而可以通过这些规律对库内的及外部文本进行语法和语义分析.
利用语料库研究语言规律包括:
- 进行语料收集工作;
- 建立语料库系统;
- 实施多层次的标注与加工处理;
- 通过已标记的语料资源积累专业领域的语言学知识;
- 针对该领域特点开展相关语言学应用研究工作。
1.2.3 汉语语言处理的方法
汉语的认知理论和模型与印欧语存在显著差异,在词汇学、句法学、修辞学和情境学等方面存在明显的界线划分,并且这些界线之间相互关联。
但汉语在词法与句法之间的界限并不明显。汉语在分词时缺乏明确的自然形态依据,在这一特点上与其他语言存在差异。对于‘词’这一概念,在汉语中也缺乏统一的标准定义。
总之,汉语的特点可归纳为:
- 汉字在词汇形态上没有外在特征标记,在组构意义时主要依靠语序配合以及虚字的辅助作用;
- 基本单位"字素"构成单个汉字,在形成短语或句子的过程中均遵循统一的构法法则;
- 汉语动词在语法体系中并不表现出与时间相关的形态变化特征;
- 助辞作为汉语特有的助辞类别,在语法中承担着重要的角色,并以其丰富多样的量级表示功能发挥特定语法功能。
这些特点也使在进行汉语信息处理时要面临以下几个问题。
汉语的歧义 问题
自然语言分为形式和内容两部分:
* 在语言形式上,表现为语法;
* 在语言内容上,表示为语义。
如果单一的语言形式无法全面决定意义,则机器对这种单一语言形式的理解就必然是唯一的,在汉语生成过程中不可避免地会遇到许多歧义现象
汉语语法兼类 现象(词的同形异类现象)
同一形态的词汇通常承担着两个或多个语法功能类别,在语言学中被定义为兼类现象。例如,在汉语中"连"这个字就承担着副词、介词、动词、名词和量词五个不同的角色。词语通常会因为使用频率高而呈现出较强的兼容性特征。
一个典型的汉语自然语言处理系统,一般包括以下几个子课题的研究。
计算机进行汉语信息处理时其核心是对词语的处理首要任务就是对词语进行切割由于没有空格需要精确分割每个词语才能保证正确理解和处理整个句子。
词性标注 属于句法结构树建立之前的任务,在此过程中需要识别并确定文本中所有语法兼类词在具体使用情境下的正确词性。
机用电子词典与知识库 :自然语言处理技术必须依靠机用电子词典作为基础工具。这种专业术语集(包含着丰富的词语数据结构)由多种类型的数据资源组成:其中包括传统的词汇分类系统(如词语切分)、语法分析工具(如词语性标注)、以及复杂的语义关联网络(如短语分析系统),这些构成了一个完整的知识图谱架构。该系统主要用于存储着大量词语的语法特征信息,并通过这些数据来进行后续的自然语言理解与生成任务。
规则库 是基于语言学知识库构建的一种方法体系,在这种体系中将词法、句法等语法知识以及语义知识以一定的计算机知识形式化表示出来,并构建起相应的消除歧义规则集。这个过程需要依靠大量的语言学知识来实现,并最终得出了多种类型的消除歧义规则。
该系统在运行过程中能够自动识别文本中的歧义现象,并通过预设的语法规则进行语义消解操作;同时它还能够根据上下文的变化动态调整消解策略以适应不同的场景需求;此外该系统还具备一定程度的自适应学习能力,在积累使用经验的过程中不断提高自身的消解效果和效率水平。
目前最典型的语言学知识表示方法有:
以下是对原文的同义改写版本
20世纪80年代以来,国外又陆续推出一批新的语法理论和方法:
- 广义短语结构解析法(generalized phrase structure grammar)
- 基于中心词的短语结构主导分析(Head-Driven Phrase Structure Grammar)
- 词汇功能分析法(Lexical-Functional Grammar, LFG)
- 功能整合分析法(functional unification grammar)
- 连接机制链式分析法(Link Grammar)
- 分类分析法(Categorial Grammar)
- 树状合并树莓接法(Tree Adjoining Grammar)
基于规则的分析法擅长描述语言中的确定性特征,并通过遵循特定规则实现直观且明显的信息传达。该方法具有较高的处理效率。
统计信息库
统计信息库包含多种关于语料库信息的统计结果, 如具有词性标注的词频统计表, 邻接关系的概率分布矩阵, 以及短语结构的数据等, 为基于统计的技术处理提供了系统的语言数据分布.
词频统计是基于一个规模宏大的样本数据集进行词汇频率及邻近词共现概率的计算,并可被视为计算机通过海量样本数据积累的语言学知识。
1.2.4 基于知识图谱的深度学习
近年来,在Web技术与Semantics Web技术不断发展的背景下,《维基百科》《Freebase》《百度百科》等丰富的资源不断涌现出来。这些信息源具有半结构化特征显著、覆盖广泛的知识面且具有较高的可信度与数据质量的特点,并为此领域奠定了基础性支持。
