Enhanced LSTM for Natural Language Inference(ESIM)阅读笔记

模型介绍

Hybrid Neural Inference Models

可以用BiLSTM编码, 也可以使用Tree-LSTM.
这里只介绍基于BiLSTM的结构.

1. Input Encoding

输入两句话分别接embeding + BiLSTM

2. Local Inference Modeling

就是一个计算attention的过程
Locality of inference
首先计算两个句子 word 之间的相似度,得到2维的相似度矩阵.

Local inference collected over sequences
利用前面的词相似矩阵, 进行两句话的 local inference. 用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子.attention的常规操作,公式如下

Enhancement of local inference information
利用减法和element-wise product计算 &lt; <mover accent="true"> a ˉ </mover> , <mover accent="true"> a ~ </mover> &gt; &lt;\bar a, \tilde a&gt; <aˉ,a~>之间的差异
然后,将得到的向量进行拼接

3. Inference Composition

The composition layer
和之前input encoding一样, 将上一步得到的 m a , m b m_a, m_b ma,mb再送入BiLSTM.
但是这里目的不同, 它们用于捕获局部推理信息 m a m_a ma m b m_b mb以及它们的上下文,以便进行推理组合。

Pooling
同时使用 MaxPooling 和 AvgPooling 进行池化操作, 最后接一个全连接层(tanh作为激活函数)+softmax

实验

参数设置

batch_size: 32
optimizer: Adam, 其中(momentum设为0.9, 0.999)
learning_rate: 0.0004
word embedding: 300
dropout: 0.5
hidden size: 300
OOV问题: initialized randomly with Gaussian samples
损失函数: 多分类的cross-entropy loss

实验结果

数据集使用SNLI, acc作为评价指标

全部评论

相关推荐

程序员牛肉:主要是因为小厂的资金本来就很吃紧,所以更喜欢有实习经历的同学。来了就能上手。 而大厂因为钱多,实习生一天三四百的就不算事。所以愿意培养你,在面试的时候也就不在乎你有没有实习(除非是同级别大厂的实习。) 按照你的简历来看,同质化太严重了。项目也很烂大街。 要么换项目,要么考研。 你现在选择工作的话,前景不是很好了。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务