Advertisement

【论文阅读01】DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

阅读量:

【论文阅读01】DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data

关键词:文档级事件抽取;中文、金融领域;自动生成标签

本文聚焦于中文金融领域的文档级事件抽取,主要解决以下两个挑战:

  1. 数据匮乏
  2. 文档级事件抽取

本文的贡献点总结如下:

  1. 构建DCFEE框架模型, 该模型具备自动生成高质量标注数据的能力, 并且能够从金融公告文本中提取具有文档级别的关键事件信息.
  2. 设计了一种自动生成中文金融事件标注的方法, 同时分享了若干实用的技术要点和优化策略.
  3. 提出的框架已经被成功部署为在线系统 (喵喵喵?)

Methodology

在这里插入图片描述

模型主要包括两个部分:

  1. Data generation:本研究主要采用远程监督机制实现对文档内容中的关键信息进行识别与自动化标注的过程。
  2. EE系统:本系统主要包含SENTENCE-LEVEL Extractive Event Recognition模块和DOCUMENT-LEVEL Event Summarization模块两大功能模块。SENTENCE-LEVEL Extractive Event Recognition模块基于SENTENCE-LEVEL annotated datasets进行训练;DOCUMENT-LEVEL Event Summarization模块则利用DOCUMENT-LEVEL annotated datasets完成任务。

Data Generation

在这里插入图片描述

Data Source :如图所示,在数据生成过程中使用的两种来源是Financial event knowledge base(该知识库包含9种典型财务事件类型,并采用表格形式存储;这些结构化信息包含了关键事件论据是由金融专家从公司公告中总结得出) 和Text data(来源于官方公告,并从搜狐证券网上获取)。

Method of data generation

Event Extraction (EE)

在这里插入图片描述

如图所示,在事件抽取模块中采用SEE和DEE两种方法对信息进行处理。其中SEE主要负责从单个句子中识别出事件的触发词及其相关属性内容;而DEE则通过分析整个文档中的文本信息,并结合已有知识库对事件信息进行补充完善。

Sentence-level Event Extraction (SEE)

SEE将抽取视为一个序列标注任务,采用Word2Vec + BiLSTM + CRF实现

Document-level Event Extraction(DEE)

  • Key event detection :如Figure 4右下所示,就是一个基于CNN分类器,其输入是由SEE阶段抽取的事件触发器和元素的表示(蓝色部分)和当前句子的向量表示(红色部分)Concatenated而成,经由分类器分类得到是否为key event
  • Arguments-completion strategy :可以自动从周围的句子中补充缺失的事件元素

Evaluation

Dataset

由文章作者自行收集整理的一份研究资料共计包括了4类事件类型:Equity Freezing(EF)事件、Equity Pledging(EP)事件、Equity Redeeming(ER)事件以及Equity Overflow Shareholder’s Position(OSSP)事件等四种类型的数据集进行了详细统计分析。研究中所选取的样本数量为259例,在这些样本中每个个体都包含了10个指标指标体系构建较为完善。
其中大部分样本涉及公司财务状况分析约70%左右的样本涉及公司财务状况分析。

在这里插入图片描述

具体而言,在文本中自动标注的数量为NO.ANN(单位:个),在这些文本中包含事件的句子数目为NO.POS(单位:个),而在这些文本中未包含事件的句子数目为NO.NEG(单位:个)。

关于自动标注数据相比于手动标注的准确率,如下图所示:

在这里插入图片描述

Performance

在这里插入图片描述
在这里插入图片描述

Conclusion

本文构建了新的框架DCFE...旨在应对中文金融领域的文档级事件抽取问题,并开发了一种自动化标注方法...专门针对数据稀缺的情况。

笔者的话

该文章所提出的框架更接近于具有实用性的实际应用性结构,在文章中出现了几个被人工设计出来的规则位置,并且可以说这些规则是基础框架上的额外补充。

全部评论 (0)

还没有任何评论哟~