文献阅读——Incorporating Context-Relevant Knowledge into Convolutional Neural Networks for STC
文章标题
Incorporating Context-Relevant Knowledge into Convolutional Neural Networks for Short Text Classification
文章动机
这篇文章书写的动机就是使用incorporate context-relevant的concept到模型中来使得我们短文本分类的效果更好。这种方法的诞生具体针对于短文本中的稀疏性进行改进的,使用外部相关的concept信息可以有效的缓解文本的稀疏性。
首先呢,由于短文本具有稀疏性的特征,所以我们需要针对于这种特征进行处理。近年来,我们经常使用引入外部知识的这种知识库来实现短文本信息增强,一追求通过这种方式来实现缓解文本的稀疏性。
上面所述的这种做法实际上也是这篇文中所使用的方法,但是文中在这种方法上又进行了改进,因为这种通过富集外部知识的做法其实也是有一定缺陷的。文中使用了一个例子,“the word ‘Lincoln’ can refer to a person or a car”,对于这个例子中,Lincoln这个word,如果我们使用KBs来引入外部知识的话,这个时候就会出现一种歧异性,究竟是应该引入哪个concept是person还是car,这个时候我们就需要考察究竟是哪一个concept跟我们的word实际含义更相接近。所以,针对于这个点的改进,文中提到的模型在提取得到跟word相关的concepts之后又通过注意力计算从而得到跟文中words相关性较大的concept,再与word embedding进行结合从而输入到下一层中。
这篇文章的思维跟我之前读过一篇文章的思路很像,在使用的方法上似乎我之前阅读的文章方法上更加完善:文章链接
模型的具体做法
首先,这个模型的名称是context-relevantconcept recurrent convolutional neural network 简称为 CCR-CNN模型,这种模型中使用了了几种技术,首先对于输入模型中处理的原始的文本词向量表示使用的是Word2Vec模型来表示的,然后在实现concept的特征提取的时候使用的是双向的GRU模型,然后面对于提取跟文本真正相关的概念信息是使用了Attention机制,然后在得到了concept以及concept features之后,使用CNN模型来从文本特征和concept features中提取更加有效的特征,从而将这些特征输入到softmax函数中进行归一化处理,最终得到相应的这些文本的分类概率。
CCR:Context-relevant Concept Representation Module
这个部分主要功能是用来进行特征提取,首先呢,这里用了微软的Probase,然后使用知识图谱来实现外部知识的扩充。
这里就需要提到这个Probase中的Knowledge的构成形式是一种word,concept对的形式,前面是这个concept相关的word,后面是这个word对应的concept;然后,这个concept表示工作就是使用这个word的加权形式来构建的,使用概念相同的words来表示这个concept。

计算方式如上所示,其中e^w_j表示使用Word2vec方式构建出来的词向量;w^w_j表示word和concept的相关性。
第二步,上面完成concept的表示工作之后,下面对于t时刻到来的word,使用一个双向的GRU模型,来获取上文以及下文的全局信息,最终形成一个信息对,从而有利于提取concept features
第三步使用Attention机制来计算和原来的文本中的word相关的概念然后才能体现出relevant-concept,这种方式的依据就是在所有concept中只要一部分是和原来的word是相关的。
在最终的concept的表示中只是取了跟这个word相关的顶部的10个concept进行Attention的加权表示。
CNN:Context-relevant Concept Word Embedding based Short Text Classification Module
这一步中,通过上面得到的的concept 内容以及concept features联合原来的text一起通过一个CNN来提取更高质量的concept features和text和concept内容,然后通过一个softmax函数实现归一化处理,最终输出得到的类别概率。
这里使用的目标函数是不同分类的交叉熵损失函数。
总结
这篇文章中使用的方法其实就是在一些引入外部知识的model加了一个Attention机制,通过获取真正和short Text中word相关的前10个concept进行注意力计算,从而得到一个有效的concept再联合text一起输入到CNN实现分类目标。
