Advertisement

论文阅读笔记:A Short Survey on Taxonomy Learning from Text Corpora: Issues, Resources and Recent Advances

阅读量:

文章目录

  • 博客前言

  • 摘要

  • 引言

  • 分类法构造技术

    • 基于模式的方法

      • 提升召回率的方法
        • 1、模式泛化
      • 拓展Heart模式的例子
      • 学习更多新的模式
    • 2、迭代提取

    • 3、上义词推理

      • 提升精确度的方法
          • 1、可信度的评估
      • 2、基于分类验证
    • 小结

    • 分布的方法

      • 提取关键术语
      • 无监督措施(Unsupervised Measures)
        • 分布的相似性度量
    • 特征(features)

      • 监督模型(Supervised Models)
        • 分类(classification)
    • 上位词生成(Hypernym Generation)

    • 排序模型(Ranking)

      • 讨论(Discussion)
        • Pattern-based methods
    • distributional approaches

    • 小结

    • 分类归纳(Taxonomy Induction)

      • 增量学习(Incremental Learning)
      • 聚类(Clustering)
      • 基于图的归纳法
      • 分类清洗(Taxonomy Cleansing)
  • 资源和分析(Resources and Analysis)

    • 资源(Resource)

    • 评估尺度(Evaluation Metrics)

      • 结果分析和讨论(Result Analysis and Discussion)
    • 作者的建议(Our Recommendations)

      • 整体表现和深层架构
      • 基准测试和评估(Benchmarks and Evaluation)
      • 明确的和规范化的术语(Unambiguous and Canonicalized Terms)
      • 结合领域知识(Incorporating Domain Knowledge)
      • 非英语和资源不足的语言(Non-English and Under-resourced Languages)
  • 总结(conclusion)

博客前言

本文是我书写的第二篇博客,同时也是我的第二篇论文阅读笔记。希望以后博客可以写的更加得心应手吧。

摘要

本文主要介绍从文本语料库中进行分类法学习。首先,介绍分类法的概念,一个分类法是一个语义结构体系,同时由is-a关系连接的概念组成 。虽然,现在有大量分类法是从人为编译的资源构建而来的,但是从文本语料库中学习分类法对长尾知识以及特定领域知识的重要性来看,这么做是十分有必要的。

本文主要关注以下四个方面:

  1. “从免费的文本中构建分类法”的最近进展
  2. 将相关子任务重新组织成一个完整的框架
  3. 用于评估的资源
  4. 未来研究面临的挑战

引言

分类法显示出了提升许多自然语言处理和信息检索任务的能力、支持大量的现实世界的应用。

随着大量web数据的可用,大量的分类法都是由人为编译的资源构建而成的。但是,即使是大型的分类法也是缺乏特定领域以及长尾的知识 (指出分类法的缺点)

近期从语料库中学习分类法已经有了一些进展,但是,还有很长的一段路需要走,主要原因如下:

1、文本语料库在规模上、话题上、质量上都是多样的。没有办法找到一种以一对多的方案。
2、免费文本分类法的准确度通常比基于维基百科的分类法更低。
3、分类学习的研究仍然不充分:
在新兴和特定领域;在非英文或者没有语言资源的情况下

本文中我们关注的近期进展有:

  1. 从文本语料库中学习分类法

  2. 重组织相关子任务到一个完整的框架中
    相关子任务包括:
    下义词的获取、下义词的获取、分类法的归纳。

  3. 总结了资源、评价指标和最先进的结果。

  4. 讨论有关未来研究的难题以及方向。

分类法构造技术

尽管不同方法的操作流程不同,但是一个免费的基于文本的分类法构建系统通常有两个操作步骤。

  1. 使用基于模式或者分布的方法来提取is-a关系。
  2. 从is-a关系中构造出一个完整的分类法。

基于模式的方法

文章首先指出,指出传统的基于模式的方法进行预测的内容:
如果x和y出现在同一个句子中并且满足一个特定的模式,那么在术语对(x,y)中存在一个is-a联系。

提出在该领域,最早的也是影响最深的人Hearst,手动建立了一些词汇模型来获取is-a联系。传统的模型是“[C] such as [E]”,其中,C为上义词y,可以理解为“类”;E为下义词x,可以理解为“实例”。对于“[C] such as [E]”中C和E都是名词短语的占位符,分别对应于is-a关系(x,y)中的x和y。

接下来提出,Probase是基于Hearst模型的,同时由成千上万的web页面构成。(由Wu et al提出)

类似的方法(Etzioni et al. (2004); Kozareva and Hovy (2010))被引入到从web页面中获取分类法。

接下来指出基于模式的模型虽然别成功的应用,但是同时也产生了诸多缺点。模式过于特殊从而不能应对所有的语言环境,这样就牺牲了召回率。 由于习惯用语、解析错误、不完整/不提供信息的提取、模糊的数据,从而导致单一的模式容易发生解析错误。

下面文章将从两个方面讲述对基于模式的方法进行的优化:

1、提升召回率
2、提升精确

一个强健的is-a关系提取系统可能需要结合多种技术来达到较高的精确度和召回率

提升召回率的方法

1、模式泛化

一些方法要么是拓展原始的Hearst模式,要么是学习更多的词-句法模式。

拓展Heart模式的例子

Ritter通过使用k个名词短语的列表来替换Hearst模式中的名词短语“[E]”,从而提升召回率(Recall)

Luu提出了一种更加灵活的模式,在这类模式之下有一些单词是可替换的。使用自动化的方法的is-a模式给出一些挑选的实例作为输入

Snow使用两个项的依赖路径来代表模式,其中两个术语的句法和词汇的联系可以被构建出来。该方法相比较表面匹配算法,有更强的噪声抵抗力,同时被应用到大量的噪声提取系统中。

学习更多新的模式

由于从文本预料库中生成的模式数量很多从而导致特征的稀疏性问题。从原始模式中学习更多抽象的通用模式,可以提升这些模式的通用性。从而提高召回率(Recall)

Navigli and Velardi 介绍了“star pattern”的概念,该模式通过使用通配符来替换句子中不通用的单词。同时聚类star pattern创造了更多通用的模式。

在In the PATTY system (Nakashole)中,提到依赖路径上的单词子集,可以被他们的POS tags,本体类型或者通配符所替换。

2、迭代提取

由于语言的歧义性以及语义倾向,导致频繁地从过度泛化的模型中提取出错误的联系。相比较于上面的模型泛化的方式,这里使用的是一个相反的想法,使用一种极端具体的模式。

Kozareva将“doubly-anchored”模式,(比方所,“车”比如“福特”或者“*”)Kozareva使用“doubly-anchored”模式来获取针对特定上义词的下义词并且通过一个引导循环来拓展上义词和下义词。“doubly-anchored”使用每一个模式作为一个查询结果并且使用搜索引擎的结果作为web的语料库。该模式的其他的特点是“doubly-anchored”模式可以减少术语的歧义性。

类似于上面两个想法,新型的is-a联系和上义词模式是使用自动化的方式进行迭代的提取。

3、上义词推理

优点:该方法克服了x和y必须出现在同一个句子中的局限性

Ritter提出一个方法,如果y是x的上义词,同时x,与x十分相似,那么就有很大的可能,y也是x`的上义词。他们训练的HMM方法相比较于基于向量的方法,可以习得更好的相似性度量

在SCS方法中,Luu给出了一个非语义关系r,定义Sr(x)作为对象的集合,对于每一个s都属于Sr(x),x和s存在r关系。如果Sr(y)大多包含Sr(x),但Sr(x)不包含Sr(y),我们可以推断y是x的上位词。

下义词修饰语的句法推理,下义词的句法推理可以生成额外的is-a联系。比如:机器可以推理出“grizzly bear”是一类“bear”,这是基于这样一个事实,就是“grizzly bear”的首词是“bear”。

接下来讲了两个针对下义词修饰推理上义词,所做的研究举例。

Taxify指出如果多词术语被添加到分类法中,该系统会添加该多词术语的语言学首部作为他的直接上义词
Suchanek提出,将Wikipedia的概念性类别链接到基于类别标题词的WordNet同义词集中。
Gupta引入语言启发式,从维基百科的分类网络中推导is-a关系。
除了英语之外,Fu et al. (2013); Li et al. (2015).这两人也在汉语上做了类似的研究。

提升精确度的方法

1、可信度的评估

在候选的is-a对(x,y)被提取之后,统计方法可以用来对可信度进行评分。分值较低的关系将会被屏蔽掉。

1、在KnowItAll中,系统通过搜索引擎的命中次数来评估逐点交互信息。
2、在Probase(概念知识图谱)(Wu)中,Probase引用可能性比率来决定一个概念x的最可能的上义词y,反过来,确定一个概念x最可能的下义词y。
Wu进一步在基于朴素贝叶斯分类器的基础上,计算出提取的is-a关系对的可信度。
3、除了从提取结果中进行统计Luu还考虑到了外部因素对可信度带来的影响。比如:包含WordNet同义词集以及词典中的概念;或者数据来源的可靠性。
4、Dong指出,谷歌知识库的构建经验告诉我们对可信度进行评估打分,对于从不同的提取器中获取和融合知识十分重要。

2、基于分类验证

基于分类验证的方法,是训练一个分类器f来预测提取的(x,y)对的正确性。常选择的模型有支持向量机、逻辑回归、卷积神经网络。

f的特征可以粗略的分为:

表面名称、语法、统计数据、外部资源等等。

使用该类方法的实例:

  1. Snow在相应的词句法模型中,使用x和y之间的依赖路径作为特征。
  2. Ritter介绍了一系列的基于一对(x,y)和Hearst模式的匹配频率的特征。比如,对于“x is a y”在语料库中的出现次数。
  3. Bansal对表面名称特征,主要考虑x和y的构词法,是否x和y是大写的以及是否x是以y结尾的。
    同时Bansal进一步使用了来自语料库和维基百科摘要中赫斯特模式匹配的统计数据。这是由于维基百科摘要中包含了概念的定义和总结,这可以用于推导is-a关系。

小结

同时,使用基于模式和分布表示的x、y也可以提升分类器的性能。(引出下文)

分布的方法

分布方法基于它们的分布表示,通过非监督措施或者监督模型,来预测项术语之间的is-a关系。

分布方法可以直接预测is-a关系,而不是在语料库中之间提取所有的is-a关系。

提取关键术语

文章在该部分主要讲述如何获取关键术语从而形成术语对作为候选的is-a关系。

首先,预测is-a关系的第一步是生成候选的下义词或者上义词。对于免费的文本来说,候选的上义词和下义词通常是关键字术语,包括名词、名词短语和/或者频繁出现的语料库中的命名实体。

关键字术语可以通过应用词性标注、命名实体识别工具到语料库中来进行识别,然后使用基于规则的提取器。现有的关键字和关键短语提取器可以应用到自动识别这些术语中来。

对于学习特定领域的分类法来说,在提取关键术语之后的重要的后处理过程是“领域过滤”。这将过滤出不在兴趣领域内的术语,从而提升分类法的精确度。

为了确保提取的术语都是在特定领域中的重要概念,一些方法只能从领域的定义语句中获术语。Navigli等人(2011)提出用领域权重来选择定义了与感兴趣领域相关的明确术语的句子。

无监督措施(Unsupervised Measures)

首先,作者调研了对于is-a关系识别的无监督方法。之后,特征表示被引入到这些方法中来。

分布的相似性度量

早期分布相似性度量工作几乎集中在对称度量上,例如:余弦、系数、散度以及广泛使用的LIN度量。
在这里插入图片描述
LIN度量中x和y分别是是候选的下义词和上义词,Fx和Fy分别是x和y的特征,Wx(f)是单词x的特征f的权重。

但是,这些对称措施只能够学习单词的语义相似性。

非对称度量模拟了is-a关系的非对称属性,并且遵循DIH假说。上面的DIH假设,一个下义词只能出现在它的一些上义词上下文中,但是一个上义词出现在它的所有的下义词的上下文中。 比如:“fruit”相比较于它的下义词有更加广阔应用前景,比如:“apple”、“banana”和“pear”。

下面针对上面的非对称度量设置了一个简单的措施 WeedsPrec ,计算y特征在x特征中的加权包含:
在这里插入图片描述
其他的非对称措施被介绍在多种研究当中,文中有针对非对称度量又介绍了一些例子。

在最近的一些研究表明DIH假说并不是在所有的例子中都是正确的。
下面又提到了一个需要解决的问题:
一个上义词的大部分上下文相比较于他的下义词,具有更少的信息性但是更通用

为了解决上面提到的这个问题,

  • Santus等人提出一种基于熵的措施SLQS来进行上义词检测。
  • Roller提出选择性分布式包含假说,实质内容是原始的DIH假说仅仅针对一些相关的领域是正确的。
特征(features)
  • 对于每一个术语x,特征集合Fx由语料库生成,其中每一个属于Fx的特征f都代表一个与x共同出现的上下文单词。同时,Lin指出,在一些工作当中,f也特指x和f的句法关系。
  • Pad´o and Lapata指出,基于句法的向量空间模型相比较于简单“BagofWords”共现模型,可以更好的区分不同词的关系。
  • Sch¨utze使用上下文单词和相比较于目标术语的位置作为特征。
  • Baroni and Lenci提出一种分布式的记忆框架,来生成词链接词的特征。
  • Yamada 等人使用原始的动词依赖关系并聚类这些依赖关系来生成特征向量

每一个特征的值都由一个权重函数来决定,这个权重函数量化了特征f和对应的单词x之间的统计学关系。

下面介绍了各类权重函数以及降低维度的方法:
权重函数有

Mutual Information (PPMI)、Local Mutual Information (LMI)

降低维度的方法有:

SVD奇异值分解算法被用来创建密集向量。

监督模型(Supervised Models)

有了可用的训练集,分类/排序方法通过基于一个术语对(x,y)的表示来训练一个可以预测上位关系的模型。

上位词生成方法直接模拟了如何在嵌入向量空间中基于下位词的表示生成上位词。

分类(classification)

在分类方法中,x和y最常用的表示是通过预先训练的神经语言模型生成的词嵌入向量。

SensEmbed生成同一个单词不同含义的不同嵌入向量。

concat 模型通过X向量和y向量进行正交来结合术语对向量,其中x向量是词x的嵌入向量,之后,训练现成的分类器。(concat模型在一些文章中是一个很强的基准)

近期的研究指出一个存在的问题:
lexical memorization

这意味着分类器学习术语的语义而不是术语之间的语义。
所以由于上述问题的产生,当训练集和结果集有很大的不同时,concat模型将会有很差的表现。

为了解决上面的词汇记忆问题,

1、diff模型被提出来,它使用向量的偏移量作为特征,表示为y向量和x向量之差。
2、asym模型由Roller等人提出,使用向量差和向量差的平方特征。
3、simDiff模型,对于关系分类而言,使用两个词上下文矩阵之差作为特征。

  • 在神经语言模型中,出现在类似上下文中的单词有着相似的嵌入向量。
  • Yu认为建模技术仍然不够强大,从而不足以学习针对is-a关系预测的术语嵌入向量,对于每一个单词,他们都需要学习两种类型的嵌入向量,分别表示当x的功能作为上位词或者下位词时x的前入向量。

嵌入向量由训练一个基于基于距离边缘的神经网络形成。

较高的表现性能显示使用特定目标的嵌入向量要比通用目标的嵌入向量有更好的性能。

上位词生成(Hypernym Generation)

上义词生成通过该模型是否可以将x向量映射到一个逼近y向量的向量,来预测x,y术语对

Fu作为上义词生成领域的先行工作,它使用均匀的线性投影和分段的线性投影将下位词的嵌入向量映射到他的上义词中。

在这之后,三个方法被提出用来拓展Fu等人的研究。

  • Wang等人对Fu等人的算法进行了改进,优点是:
    当训练集和测试集在语义空间上重叠较少时,改进了分段投影模型的性能。

  • Yamane等人对Fu的算法进行了改进。

  • Tan等人对Fu的算法进行了改进。

这三个方法的优点是:在f度量方面可与最先进的分类方法相媲美

除此之外,通过领域聚类,该方法(Fu et al., 2014)被修改为对领域适应的目标数据源敏感的迁移学习版本。

负采样技术提升了投影学习的效率 这是因为人们有时会将上义关系的表征与同义、合义、同义相混淆。文中提到的两个例子,这些方法考虑了is-a关系和非is-a关系的表示,以及在一个转导性学习设置中的上位词相似性性和语言规则。

排序模型(Ranking)

作为一种替代方法,Fu提出一种排序模型来为一个实体筛选上位词。

由于排序模型的低召回率,对于提取is-a关系,使用排序模型来代替一个分类模型不是一个常用的方法。然而,这种方法是专门为中文而设计的。

由于汉语灵活的语言表达方式,学习汉语从根本上说是一种挑战。因此,有必要训练一个排序模型来提取高精度的中文is-a关系。

讨论(Discussion)

在本篇论文中,对于哪种方法更有效的预测is-a关系是存在争议的。

Shwartz等人声称分布式方法优于基于模式的方法,而Levy等人认为分布式方法甚至不起作用。

作指出本文并不是说哪种方法更好,而是陈述研究界的主要观点,以及两种方法的利弊。

Pattern-based methods

基于模式的方法,提取了在语料库中基于词—句法路径连接的x和y的is-a关系,这个方法明显的表达了这个关系。原始的Hearst模式以及跟更加通用的模式被用在大量的分类法中。

指出基于模式的方法缺点所在:

  • 使用模式作为特征可能会导致特征空间的稀疏性。
  • 大部分的方法需要x、y共同出现在同一个句子中。因此,召回率受到了限制。
  • 除此之外,它们过于依赖于语言,如果在其他语言中很少有类似于Hearst的模式,则很难使用。
distributional approaches

分布式方法使用来自于上下文的单词表示,独立于它的上位词和下位词。
优点:
词嵌入向量的用法使得机器可以基于整个语料库进行预测。

缺点:
1、分布式方法在检测特定的、严格的is-a关系方面不够精确,并且倾向于发现术语之间广泛的语义相似性

2、通过分布方法检测到的一些术语是共同下位词和首位词,而不是上位词。
3、词表现是领域独立的,并且该模型与训练集十分相关。
4、监督分布方法实际上是学习y是不是一个典型的上位词,而不是学习x和y之间的关系。

小结

尽管基于模式的方法和分布式的方法各有其自身的缺点,但基于模式和分布的方法被认为是互补的。

之后的段落讲到
将基于模式的方法和分布方法相结合,各取所长来提到构建is-a关系的性能。提到了,近些年HyperNET system 提出其每一个模式都是由一个依赖路径以及LSTM来进行嵌入。
同时通过实验数据表示,将pattern-based 和distributional进行结合的F1的数值要比单独使用他们俩的其中一个效果要好。

分类归纳(Taxonomy Induction)

本部分主要是讲述从is-a关系中创建分类法。

增量学习(Incremental Learning)

一些方法通过增量学习从“种子”分类法构建完整的分类法。

  • Snow等人(2006)通过从文本中获取is-a和表亲关系的证据,以最大化扩展分类法的概率来丰富WordNet。
    他们专注于提取新的实体并将这些新的实体附加到WordNet的语义层次结构中

  • Shen等人(2012)注意到,提取的术语既可以指向分类法中的现有实体,也可以指向新的实体,并提出了一种基于图的方法来将这些术语与分类法链接起来,或者在分类法中插入新的实体

  • Kozareva和Hovy(2010)仅以根概念作为输入,迭代提取is-a关系来扩展分类法

  • Alfarone和Davis(2015)进一步考虑了在特定领域无法获得“种子”分类法的问题。他们通过Hearst模式匹配和启发式规则构建“种子”分类法。

聚类(Clustering)

分类法学习可以认为是一个聚类问题,其中,相似的术语聚类在一起共享同一个上位词。

下面的例子是通过对聚类的方法进行相应的调整从而提升分类法的性能。

基于图的归纳法

基于图的方法自然适合分类法归纳,因为这些分类法通常是图。

  • Kozareva and Hovy通过找到在原始图中的最长路径来获得从根部
    到目标术语的路径,其中边代表噪声is-a关系。

  • Anke等人(2016b)通过乘以其边的域相关性值来计算路径权重。

  • 另外一个常用的算法是 最佳分值算法
    其首先基于图的连通性分配边的权重;
    其次,基于Chu-Liu/Edmonds’s algorithm来发掘最佳路径;
    最后,在有噪声的边被移除之后,用最大权值构造有根树。

  • Bansal等人(2014)使用因子图模型来表示术语和is-a关系。将分类法的学习看作是模型的结构化学习问题,通过循环信念传播来解决。

分类清洗(Taxonomy Cleansing)

分类法学习的最后一步是进行分类清洗,它是通过移除错误的is-a关系来提升分类法的质量。

近期Probase的研究指出,错误的is-a关系可能以循环的形式存在于分类法中。通过消除循环来解决,最终74000个错误的is-a关系将会被发掘出来。

最后一个问题是 实体模糊性 ,正如Liang等人讨论的那样,可传递性属性在自动构造的分类法中不一定成立。

the facts “(Albert Einstein, is-a, professor)” and “(professor, isa,
position)” do not mean that “(Albert Einstein, is-a, position)”.

模糊性问题在一些系统中的解决方法:
词义消岐(但是该方法并不能充分解该问题)

文中为词义消歧提出了两个例子
虽然,现在我们对于学习一个单词“bank”的含义(一个金融机构或者河畔)很容易,但是在学习过程中区分是否“professor”是特殊的人还是一个职位的名称仍然有很大的挑战.

在基于Liang等人的理论之下,文章指出,基于上述传递性属性在自动构造的分类法中不一定成立的观点,我们要想达到充分消岐的分类仍然还需要继续努力。

资源和分析(Resources and Analysis)

资源(Resource)

总结对于预测is-a关系的研究有多种资源可以使用。

第一种是高质量的分类法: 使用知识库和语义网络。这些系统中的知识可以用于生成远程监督模型学习的训练集。
该类典型的英语资源有:
WordNet、WiBi、DefIE。
对于其他的非英语资源有:
multilingual systems,如YAGO3、BabelNet、Multi-WiBi。

我们需要指出,这些系统不一定都是分类法,但包含丰富的类型层次知识。

两个共享任务是专门为分类学习设计的.

TExEval:
&esmp;目标是在四个目标领域(即化学、设备、食品和科学)构建分类,每个领域都提供黄金标准。
TExEval-2:
&esmp;对于TExEval,的设置已经扩展到涵盖4个欧洲语言

指出,在这些工作中,鼓励参与者使用维基百科语料库作为输入,但是对于数据资源来说并没有严格的定义。在之前的研究中,一些特定领域的语料库也被用来作为分法的输入。

评估尺度(Evaluation Metrics)

指出对上位关系预测算法进行评估并不简单。同时给定一组is-a关系和非is-a关系作为基础事实依据,标准的分类尺度,如:精确度、召回率、F值作为对照。

指出对整个分类法的质量进行评估的难度所在:

1、一个分类法的规模较大
2、获得黄金标准的较难
3、需要考虑拓扑、正确性和覆盖范围等多个方面的存在

如果黄金标准的分类法可用,那么标志着S = (Vs,Es)和G = (VG,EG)作为被提取的和黄金标准分类法。其中Vs和VG是节点集,Es和EG是边集。

在两个共享的工作中介绍的评估方法被简要的总结如下:
在这里插入图片描述
第二种指标比较了由不同方法生成的分类法。并且考虑到了规模和质量。需要人工评估来通过采样和标记边缘来估计准确性。

除上面的叙述之外,拓扑统计值(包括简单直接循环的数量、连接组件、中间节点)能够判断是否该分类法是一个直接非循环图和好的结构。

结果分析和讨论(Result Analysis and Discussion)

在分布式方法中我们也提到了Discussion,但是,那一块是讨论is-a关系的预测。本部分主要讨论分类法学习的整体性能。

由于两个共享工作汇报出了各种方法的性能,所以 文章首先分析这两个共享方法。 在这两个工作中,两个基于模式的方法(INRIASAC、TAXI)比其他的方法更优。

INRIASAC使用基于频率的共现统计数据,子串包含启发式提取一组下位词的上位词。

TAXI抓取特定领域的语料库,并使用词汇-句法模式和子字符串进行领域is-a关系提取。

但是,由于只有一个系统使用这些技术,所以分布式方法的潜能并没有被充分挖掘出来除上面的情况之外,不同的系统可能在这些工作中使用他们不同的语料库,因此该结果不能直观的反应这些算法的优势

在多语言任务中,与其他语言相比,TAXI的性能有很大的下降。一些对于英语很高效的算法,对于汉语却并不起作用。这种现象需要针对非英语语言资源的特定语言算法。

对于其他的工作 ,尽管知识资源和领域可能有不同,我们注意到他们也经受了低召回率的问题。

虽然提升精确度变得十分容易,但是,由于我们只关注识别所有的is-a关系,无论这些关系在一个或者多个句子中的关系表现的是明确还是含蓄,所以提升召回率变得十分具有挑战性。

当考虑不那么集中和动态的领域时,这个问题会变得更加严重。

作者的建议(Our Recommendations)

作者讨论了对于那些没有被充分解决的分类学习问题如何提升其性能。

整体表现和深层架构

文章提到Shwartz表示结合基于模式和分布式的方法可以提升is-a关系提取的性能。

作者认为这个性能可以得到进一步的提升,通过学习两种不同类型的方法如何相互促进。

  • 神经网络模型对于这些特征可以高效的学习更深层次的表现。
  • 作者认为可以通过从模式和分布表现中的术语对之间,添加语义相关性的信息来解决Levy提出问题(They find that supervised distributional methods actuallylearn whether y is a “prototypical hypernym”,instead of the relation between x and y.)。

另一个相关的话题是,尽管上面提到了几种嵌入学习方法,但深度学习范式在分类归纳方面的成功范例是有限的。作者认为这主要是因为很难为神经网络设计一个单一的目标来优化这项任务。因此,如何利用深度学习的热潮来进行分类归纳对未来有很大的研究价值。

基准测试和评估(Benchmarks and Evaluation)

分类学习基准对于量化最先进技术的表现至关重要。

基准应该包含文本语料库、黄金标准和评价指标。

Bordea提出了在一些领域中和语言中的一些黄金标准的分类法,但是不需要所有的系统都着相同的语料库。

提出在当前的基准和方法中,存在的一些问题。

1、Levy等人(2015)表明,由于词汇记忆问题,监督系统实际上表现超常
2、Shwartz等人(2017)认为无监督方法比有监督方法更健壮,但有监督方法优于无监督方法。
3、Collados(2017)讨论了在分类法学习系统或其在下游应用中的集成环境中,上义检测任务是否确实是评估is-a关系的合适任务。

对于一个完整的、被广泛接受的评估基准,应该进行更深入的研究。

明确的和规范化的术语(Unambiguous and Canonicalized Terms)

对于词分类器,一个术语应该有多种表面形式和含义。而歧义的问题使得基于分类的的应用易于发生错误。

我们希望构建这样一个分类法,其中每个节点表示与其可能的表面形式及其上下文相关联的无歧义术语。通过这种方式,分类法自动支持实体链接,这对IR应用程序非常有益。

结合领域知识(Incorporating Domain Knowledge)

领域知识对于在特定领域的术语和关系提取很重要,但是从一些受限的语料库中包含领域知识很困难。利用来自领域知识库的事实,可以通过远程监督来学习领域分类法,比现有方法具有更高的覆盖率。因此,构建基于文本语料库和特定领域知识库的分类法是一项重要的任务

非英语和资源不足的语言(Non-English and Under-resourced Languages)

对于资源不足的语言,本文所解决的任务还没有得到广泛的研究。对于基于模式的方法尽管对于英语语言很高效但是在很大程度上有语言独立性。

如何将现有的方法应用于与英语有显著不同的语言是值得研究的。

总结(conclusion)

在本文中,作者介绍了基于文本语料库的分类法学习的一个调研。首先关注了基于模式和分布式方法从文本中学习上位关系;接下来,讨论如何从is-a关系中归纳出分类法。

通过解决本文中讨论的问题,作者建议高质量的分类法应该在自然语言处理和信息检索方面有更大影响的领域和语言中构建。

全部评论 (0)

还没有任何评论哟~