命名实体识别_中文医学命名实体识别
发布时间
阅读量:
阅读量
Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition
总述
该研究提出了一种结合词典信息的深度学习方法,旨在解决中文医学命名实体识别问题.
融合了字典的深度模型主要的优点是,
可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。
具体得,作者基于BiLSTM拓展出两个深度模型框架,并且设计了五种特征
(题外话,其实作者可以说是三种特征)
设计的五种特征
- N-gram特征


具体的过程,首先提取出2-5gram字符串, 共有8个字符串(左右两边),
如上图一,所示xi的2-5gram字符串,
之后用独热编码表示各个字符串,如图二所示,腹壁属于body,所以编码是00001,
8个字符串,每个字符串用五维的独热编码表示,所以N-gram特征,共有40维

- PIEF(Position-Independent Entity Type)特征
一句话概括就是,双向最大匹配算法(正向、逆向取最大长度),
对句子中的字符标注其属于的类别
如上图PIET特征所示
- PDET(Position-Dependent Entity Type)特征
相比于PIEF融入了实体位置信息,如上图PDEF所示,
S、single单个字符实体位置,B、begin实体的开始位置,
E、end实体结束位置I、inter实体中间位置。
两个模型
- model 1

嵌入向量和特征向量直接连接,输入到双向LSTM中
- model 2

嵌入向量和特征向量分别输入到双向LSTM中,最后在CRF层前才连接
显然第一种是最好的方式
最后的结果

全部评论 (0)
还没有任何评论哟~
