最近在打比赛,比赛内容是上下文指代消解,为此稍微阅读了几篇这方面的baseline。感觉这篇有很多思想在后续工作中都有体现,因此写篇博客总结一下。
引言 本文声称其为首个端到端的指代消解模型,在不使用句法分析和特征工程的前提下超越了之前的方法。模型对"word span"(不知道怎么翻译,要不翻译成"词组"吧)进行嵌入,包含了词组的边界信息以及单头的注意力信息,训练目标是最大化正确指代对的边缘似然(marginal likelihood)。同时,本文将评分进行分解,高效的剪枝策略得以使用。
模型 给定Document D, D 中存在若干span pairs,每个span pairs由相邻的几个词构成,(疑问:为啥是几个词作为一个span,而不是单个的词?粒度问题怎么处理),假设有T个span,那么可能的span pairs数量为$$\frac{T*(T-1)}{2}$$。需要从这些pair中找出正确的pair。
模型的优化目标为:
简单来说便是优化给定文档后正确的span对的似然,在这里把每个yi看作一个随机变量。
s(i.j)代表了span i和span j之间的得分,由三部分构成,分别是sm(i)和sm(j),代表了对应span被判定为mention的分数,sa(i,j)代表两者存在指代关系的分数。
看到这个图我恍然大悟了,原来他的span是包含了各种宽度的,而且在求sm(i)时,如果分数太低就会直接被剪枝剪掉。计算一下时间复杂度,本身span数量是O(T^2),那么求这些pair一共得O( T^4)。
Span representation 在score计算中很重要的一环便是对span表示的计算。首先每个词具有一个固定的word embedding向量表示,为了解决OOV问题,还引入了了character CNN。
使用bi-LSTM对span进行编码,x_t为固定的word embedding, 对于每句话使用独立的biLSTM进行编码,再使用注意力进行加权,
最后再加入关于span的长度信息,一同构成最终的representation。
Inference 为了加快inference,只有长度不超过预先给定值,并且mention score 排在前lambdaT的span会被考虑。这里的剪枝方法是选择mention score最高的那部分。在具体实现中,max length被设为10。