金融领域文档级别事件抽取-Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extract

该论文来自EMNLP2019、清华&微软研究院、源码&数据集【1】已开源github：Doc2EDAG
paper地址：paper原文
金融领域数据有以下两种特征：
① 事件元素分散（Arguments-scattering）：指事件论元可能在不同的句子（Sentence）中。
② 多事件（Muti-event）：指一个文档中可能包含多个事件。
由于Sentence-level级别的事件抽取模型不能很好的处理一个句子中有多个事件的情况，本文提出一个文档级别的金融领域事件抽取模型（Doc2EDAG），该模型的核心思想是将文档级别的事件表填充任务（Document-level Event table filling，DEE）转化为基于实体的有向无环图的路径扩展任务（Entity-based directed acyclic graph，EDAG）。该模型将Document-level级别的context进行编码，并设计了一个记忆机制进行图路径扩展。为缓解远程监督标注时的错误，该模型忽略掉触发词标注（trigger-words labeling），忽略触发词标注可以省略掉触发词预定义和启发式生成触发词（对于没有触发词的句子，从预定义的触发词集合中启发式生成一个触发词）。
关键概念：
实体（entity）：实体对象的文本跨度
事件角色（entity role）：对于事件表的预定义字段
事件参数（event argument）：事件参数是扮演特定事件角色的实体
事件记录（event record）：一个事件记录对应于事件表的一个条目，并包含几个具有所需角色的参数

DEE Task Without Trigger Words（无触发词的DEE任务）：
① Entity extraction: 提取实体作为参数候选
② Event detection: 判断文档是否针对每个事件类型触发（二分类）
③ Event table filing: 将参数填充到触发事件表中
Doc2EDAG task：
Doc2EDAG任务的思想是将事件表填充任务转化为EDAG的路径扩展任务。
该任务有两个核心步骤：
①文档级别的实体编码（document-level entity encoding）
②有向无环图的生成（EDAG generation）

根据预定义的事件角色（Event role）顺序生成EDAG的过程如下图所示：

Doc2EDAG的工作流程，下图的流程对应Figure3的图扩展过程。

事件表填充（event table finling）案例：

Document-level entity encoding：
在进行文档级别的实体编码之前要先将句子进行embedding并识别句子中的entity。本文将一个文档视为一个sentence使用Transformer-1编码，使用BI-LSTM-CRF进行句子级别的实体识别。
Entity&Sentence Embedding：
将所有的实体和句子进行embedding，并分别使用最大池化操作获得固定维度的向量。
Document-level Encodeing：
为所有已经编码的entity和sentence添加句子位置编码（sentence position embedding）并送入transformer-2获得文档级别的entity mention和sentence embedding。在该步骤使用max-pooling合并名称相同的实体。
EDAG Generation：
（1）首先使用线性分类器对每个event type进行事件触发分类（event-triggering classification，二分类任务）。
（2）为每个已分类的event type按照预定义的event role顺序创建EDAG，图节点对应entity或NA（NA表示当前sentence没有与当前event role匹配的实体）。创建完成的EDAG每条完整路径对应event table中的一条事件记录。
（3）为了记录当前实体是否已经被添加到EDAG中，本文为每个句子创建一个记忆向量m，当句子中的entity或NA被添加到EDAG中时就更新对应位置的m向量值。
Path Expanding：
该任务被视为一个二分类任务，即判断某个实体是否对应当前顺序下的event role，如果是就将该实体添加到EDAG中,如果没有任何实体能与当前event role匹配则将NA添加到EDAG中。
该步骤将对应位置的记忆向量m与entity进行拼接，并添加一个额外的可训练的实体角色指示向量（event-role indicator embedding）送入transformer-3进行encoding，然后从transformer-3的output得到一个enriched entity embedding，最后将此enriched entity embedding送入分类器进行分类。
实验：
本文构建了一个金融领域文档级别的事件抽取数据集（原数据来自），实验预定义了五类event type：股权冻结Equity Freeze (EF), 股权回购Equity Repurchase (ER), 股权减持Equity Underweight (EU), 股权增持Equity Overweight (EO) and 股权解押Equity Pledge (EP)。
为了降低error-propagation，模型训练过程中采用**计划采样【2】**方式（scheduled sampling）进行迭代训练，计划采样是指训练网络时不完全采用真实序列作为下一步的输出，而是以一个概率p选择真实标记，以1-p概率选择模型输出，p是变化的，开始训练时p较大，模型训练越充分p越小[3]。
实验结果：
S：single-event
M：multi-event

关注我的微信公众号，一起变得更强：

参考：
[1] https://github.com/dolphin-zs/Doc2EDAG
[2] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for sequence prediction with recurrent neural networks. In NIPS.

全部评论

推荐最新楼层

今天 10:26

已编辑

南京大学 golang

深圳小厂后端一面

🙌面试感想：这次面试比较简单1.get post区别2.http https区别3.TCP UDP区别4.mysql b+树5.mysql事务6.线程进程协程区别7.go channel select定义8.gc垃圾回收9.restful api规则10.用户量突增如何处理11.redis三剑客12.gin框架13.session cookie区别

查看12道真题和解析

点赞评论收藏

04-10 14:24

小天才（步步高）_算法开发工程师(准入职员工)

小天才内推，小天才内推码

小天才26秋招分享（三面凉经）tl：9.13投递-10.10自主约面-10.10一面-10.11上传作品集-10.14二面-10.16三面（交叉面） 一面：线上邮件通知选择具体面试时间段（大约20mins）面试官问题1. 请先做一个自我介绍（1分钟左右）。2. 简历项目追问3. 在校期间有获得哪些奖学金吗？4. 有挂过科吗？5. 学得最好的课程是哪些？6. 分享一个人力资源领域中你觉得很重要的知识点。7. 根据以上追问若干问题8. 结合实习经历，招聘的具体成果是你直接负责的社招岗位吗？9. 你的导师对你的工作评价是什么样的？10.追问11.综合实习经历，你目前更适合做人力哪个方向的工作？12....

查看25道真题和解析

点赞评论收藏

03-29 17:05

门头沟学院 Java

我们到底在焦虑什么呢？

昨天晚上妈妈突然告诉我，一个在科大毕业每几年的亲戚去世了，才三十不到。突然间我躺在床上，感觉自己对未来的焦虑、烦恼，似乎在生命之重面前成了一片微不足道的叶。昨天我的女朋友送了我一个噜噜的玩偶，我把它放在床上陪着我睡觉。我突然想到，如果有一天我生了一场大病，躺在床上，无法健身，无法学习，无法和我爱的人一起散步，吃饭，做最平常的事情，这有多么可怕啊？我们现在活着，爱着，在努力地往前走，这就是最伟大的财富了。

asdasdasda...：我前段时间找工作焦虑，有几天连续熬夜熬穿了，然后心脏突然不舒服，立马躺床上睡觉了，然后第二天还是不舒服，去看医生说是心率不齐，吓得我后面天天早早睡觉，调养身体，过了好几天才好过来。所以真的，工作这些东西哪有那么重要，最多钱多一点钱少一点，降低物欲。活着才是最重要的，现在想想真的后怕

如何排解工作中的焦虑

点赞评论收藏