(Paper Weekly06) End-to-end Neural Coreference Resolution
最近在打比赛,比赛内容是上下文指代消解,为此稍微阅读了几篇这方面的baseline。感觉这篇有很多思想在后续工作中都有体现,因此写篇博客总结一下。
引言
本文声称其为首个端到端的指代消解模型,在不使用句法分析和特征工程的前提下超越了之前的方法。模型对"word span"(不知道怎么翻译,要不翻译成"词组"吧)进行嵌入,包含了词组的边界信息以及单头的注意力信息,训练目标是最大化正确指代对的边缘似然(marginal likelihood)。同时,本文将评分进行分解,高效的剪枝策略得以使用。
模型
给定Document D, D 中存在若干span pairs,每个span pairs由相邻的几个词构成,(疑问:为啥是几个词作为一个span,而不是单个的词?粒度问题怎么处理),假设有T个span,那么可能的span pairs数量为$$\frac{T*(T-1)}{2}$$。需要从这些pair中找出正确的pair。
模型的优化目标为:

简单来说便是优化给定文档后正确的span对的似然,在这里把每个yi看作一个随机变量。

s(i.j)代表了span i和span j之间的得分,由三部分构成,分别是sm(i)和sm(j),代表了对应span被判定为mention的分数,sa(i,j)代表两者存在指代关系的分数。

看到这个图我恍然大悟了,原来他的span是包含了各种宽度的,而且在求sm(i)时,如果分数太低就会直接被剪枝剪掉。计算一下时间复杂度,本身span数量是O(T^2),那么求这些pair一共得O( T^4)。
Span representation

在score计算中很重要的一环便是对span表示的计算。首先每个词具有一个固定的word embedding向量表示,为了解决OOV问题,还引入了了character CNN。

使用bi-LSTM对span进行编码,x_t为固定的word embedding, 对于每句话使用独立的biLSTM进行编码,再使用注意力进行加权,

最后再加入关于span的长度信息,一同构成最终的representation。

Inference
为了加快inference,只有长度不超过预先给定值,并且mention score 排在前lambdaT的span会被考虑。这里的剪枝方法是选择mention score最高的那部分。在具体实现中,max length被设为10。
abalation study

作者还对模型的不同部分进行了消融实验,结果表明之前编码的特征信息起到了非常关键的作用,对于glove的使用紧随其后。至于attention其实作用并不是最明显的。
Weakness
当然了,模型也存在一些缺陷,比如在这个例子中:The flight attendants and *The pilots’*由于flight attendant和pilot的word embedding是比较接近的,所以这部分信息会被模型过度利用。以及对于比较相似的短语结构也会错误给出较高的评分。