(Paper Weekly06) End-to-end Neural Coreference Resolution

Jul 20, 2021 1 min read

最近在打比赛，比赛内容是上下文指代消解，为此稍微阅读了几篇这方面的baseline。感觉这篇有很多思想在后续工作中都有体现，因此写篇博客总结一下。

引言

本文声称其为首个端到端的指代消解模型，在不使用句法分析和特征工程的前提下超越了之前的方法。模型对"word span"（不知道怎么翻译，要不翻译成"词组"吧）进行嵌入，包含了词组的边界信息以及单头的注意力信息，训练目标是最大化正确指代对的边缘似然(marginal likelihood)。同时，本文将评分进行分解，高效的剪枝策略得以使用。

模型

给定Document D, D 中存在若干span pairs，每个span pairs由相邻的几个词构成，（疑问：为啥是几个词作为一个span，而不是单个的词？粒度问题怎么处理），假设有T个span，那么可能的span pairs数量为$$\frac{T*(T-1)}{2}$$。需要从这些pair中找出正确的pair。

模型的优化目标为：

简单来说便是优化给定文档后正确的span对的似然，在这里把每个yi看作一个随机变量。

s(i.j)代表了span i和span j之间的得分，由三部分构成，分别是sm(i)和sm(j)，代表了对应span被判定为mention的分数，sa(i,j)代表两者存在指代关系的分数。

看到这个图我恍然大悟了，原来他的span是包含了各种宽度的，而且在求sm(i)时，如果分数太低就会直接被剪枝剪掉。计算一下时间复杂度，本身span数量是O(T^2)，那么求这些pair一共得O( T^4)。

Span representation

在score计算中很重要的一环便是对span表示的计算。首先每个词具有一个固定的word embedding向量表示，为了解决OOV问题，还引入了了character CNN。

使用bi-LSTM对span进行编码，x_t为固定的word embedding, 对于每句话使用独立的biLSTM进行编码，再使用注意力进行加权，

最后再加入关于span的长度信息，一同构成最终的representation。

Inference

为了加快inference,只有长度不超过预先给定值，并且mention score 排在前lambdaT的span会被考虑。这里的剪枝方法是选择mention score最高的那部分。在具体实现中，max length被设为10。

abalation study

作者还对模型的不同部分进行了消融实验，结果表明之前编码的特征信息起到了非常关键的作用，对于glove的使用紧随其后。至于attention其实作用并不是最明显的。

Weakness

当然了，模型也存在一些缺陷，比如在这个例子中：The flight attendants and *The pilots’*由于flight attendant和pilot的word embedding是比较接近的，所以这部分信息会被模型过度利用。以及对于比较相似的短语结构也会错误给出较高的评分。

技术 NLP paperweekly

(Paper Weekly06) End-to-end Neural Coreference Resolution

引言

模型

Span representation

Inference

abalation study

Weakness

陈沁宇

Master Student@PKU