Advertisement

命名实体识别_中文医学命名实体识别

阅读量:

Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition

总述

该研究提出了一种结合词典信息的深度学习方法,旨在解决中文医学命名实体识别问题.

融合了字典的深度模型主要的优点是,

可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。

具体得,作者基于BiLSTM拓展出两个深度模型框架,并且设计了五种特征

(题外话,其实作者可以说是三种特征)

设计的五种特征

  • N-gram特征
fb5e92c6120369b80335b52ac22d30c6.png
e13c4d4c077c4e16b4a6eeaf5ed3b1bd.png

具体的过程,首先提取出2-5gram字符串, 共有8个字符串(左右两边),

如上图一,所示xi的2-5gram字符串,

之后用独热编码表示各个字符串,如图二所示,腹壁属于body,所以编码是00001,

8个字符串,每个字符串用五维的独热编码表示,所以N-gram特征,共有40维

fe0de94339a3dfba845428737a9aa92d.png
  • PIEF(Position-Independent Entity Type)特征

一句话概括就是,双向最大匹配算法(正向、逆向取最大长度),

对句子中的字符标注其属于的类别

如上图PIET特征所示

  • PDET(Position-Dependent Entity Type)特征

相比于PIEF融入了实体位置信息,如上图PDEF所示,

S、single单个字符实体位置,B、begin实体的开始位置,

E、end实体结束位置I、inter实体中间位置

两个模型

  • model 1
ed9c7035884161178affa8444f316ce6.png

嵌入向量和特征向量直接连接,输入到双向LSTM中

  • model 2
cdcf8d22ac08e0db07d9d1f7edd3582f.png

嵌入向量和特征向量分别输入到双向LSTM中,最后在CRF层前才连接

显然第一种是最好的方式

最后的结果

8479c6c394cd8e8933f3da552c93a8b4.png

全部评论 (0)

还没有任何评论哟~