NLP

Paper-Weekly20-TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Are language agents capable of planning in more complex yet realistic settings, closer to those in which humans operate?

Mar 11, 2024 1 min read

Paper-Weekly21-Best Practices and Lessons Learned on Synthetic Data for Language Models

The success of AI models relies on the availability of large, diverse, and high-quality datasets, which can be challenging to obtain due to data scarcity, privacy concerns, and high costs.

Mar 11, 2024 1 min read

Paper-Weekly19-Improving Text Embeddings with Large Language Models

Feb 26, 2024 0 min read

Paper-Weekly18-The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

We find task balancing and enrichment techniques are overlooked but critical to effective instruction tuning, and in particular, training with mixed prompt settings (zero-shot, few-shot, and chain-of-thought) actually yields stronger (2%+) performance in all settings.

Jan 26, 2024 1 min read

Paper-Weekly18-The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

Paper-Weekly10-WebBrain

这篇文章设计了一个新任务，根据query进行搜索，在网上自动获取相关的证据，并把搜索结果用于生成短的，符合事实的文章。生成的目标是维基百科里没有的、factually-correct的短文章。他们通过爬取维基百科构造了一个大规模的数据集，比之前类似的数据集大10倍。同时他们还设计了一个将检索与生成相结合的框架ReGen。 ReGen基于当前最先进的方法（SPLADE+FiD+BART）进行改进，主要有以下三点：控制检索证据的话题一致性在生成过程中引入citation mark从而保证引用的来源引入基于事实的自监督任务 webBrain区别于已有工作的创新点在于：已有工作大多利用模型实现存储的参数化知识（0shot），容易生成幻觉，而webbrain使用网络上挖掘的信息，可能更可信一些；检索增强QA只需要给出一个简单的span或者生成一个简单的句子，而webbain探索了如何综合利用所有的网络信息来生成一篇comprehensive且准确的短文比MDS更难，并不是简单总结已有文章，还需要挖掘evidence webGPT需要记录人类用户的交互行为，webbrain只是基于已经生成的维基百科文章，更加可行。为什么他们一定非得收集网上现成的wiki呢，而且所谓的挖掘信息，不就是把wiki里的url做一个filter吗？请问搜索引擎用在哪？意思是人工标好的就算是挖掘吗。再退一步，wiki的写法一般都是先写再加引用，我引用是为了去佐证我写的的准确性，而不是根据网页的内容做总结。所以这文章就很扯。 Anyway，还是看看他们的具体做法吧。

Aug 17, 2023 1 min read

Paper-Weekly09-Resurrecting Recurrent Neural Networks for Long Sequences

最近RWKV特别火，他号称能在线性时间内建模各种序列问题，参数量少泛化能力强，是transformer的有力竞争者。

Aug 5, 2023 1 min read

Paper-Weekly08-Learning To Retrieve Prompts for In-Context Learning

in-context-learning的例子（prompt, examples, templates…）对任务的表现影响还是比较大的，如何找到合适的例子是关键。这篇NAACL的文章主要解决的是如何召回好的prompts。提出了Efficient Prompt Retrival方法，使用一个小的LM对召回的例子进行打分排序，构建正负样本对，再做对比学习。值得注意的是如何构建数据集和如何训练。如何构建数据集 training阶段，对于给定的样本对，首先需要构建一些正负样本对训练召回器。使用sparse或dense的retriver，按照如下打分方式进行排序： $$ s(\overline{e}l)=Prob{\hat{g}}(y|\overline{e}_l,x) $$ 即计算在给定当前例子和input序列x时，得到目标序列y的概率，概率越大说明给的例子对当前的生成更有帮助。得到分数后对例子进行排序，取topk和bottomk，由于之前一步已经是用target y召回过了所以能保证这里的例子是good prompt或者hard difficult prompt。训练过程分别使用input encoder和prompt encoder对输入进行编码，使用的是bert的cls embedding。每个训练样本有2B个cls embedding对，一个x，一个e+，一个e-，B-1个batch内正例，B-1个batch内batch内负例，一共1个正对，2B-1个负对。 Our training instances are of the form ⟨xi, ei+, ei−,1, .

Apr 3, 2023 2 min read

(Paper Weekly07)(BertCoref)Coreferential Reasoning Learning for Language Representation

承接上篇，这篇讲的是如何将coref作为bert的预训练task，从而增强bert的泛化性能。本以为这是讲如何用bert做coref，现在看来并不是。

Jul 25, 2021 1 min read

(Paper Weekly06) End-to-end Neural Coreference Resolution

最近在打比赛，比赛内容是上下文指代消解，为此稍微阅读了几篇这方面的baseline。感觉这篇有很多思想在后续工作中都有体现，因此写篇博客总结一下。引言本文声称其为首个端到端的指代消解模型，在不使用句法分析和特征工程的前提下超越了之前的方法。模型对"word span"（不知道怎么翻译，要不翻译成"词组"吧）进行嵌入，包含了词组的边界信息以及单头的注意力信息，训练目标是最大化正确指代对的边缘似然(marginal likelihood)。同时，本文将评分进行分解，高效的剪枝策略得以使用。模型给定Document D, D 中存在若干span pairs，每个span pairs由相邻的几个词构成，（疑问：为啥是几个词作为一个span，而不是单个的词？粒度问题怎么处理），假设有T个span，那么可能的span pairs数量为$$\frac{T*(T-1)}{2}$$。需要从这些pair中找出正确的pair。模型的优化目标为：简单来说便是优化给定文档后正确的span对的似然，在这里把每个yi看作一个随机变量。 s(i.j)代表了span i和span j之间的得分，由三部分构成，分别是sm(i)和sm(j)，代表了对应span被判定为mention的分数，sa(i,j)代表两者存在指代关系的分数。看到这个图我恍然大悟了，原来他的span是包含了各种宽度的，而且在求sm(i)时，如果分数太低就会直接被剪枝剪掉。计算一下时间复杂度，本身span数量是O(T^2)，那么求这些pair一共得O( T^4)。 Span representation 在score计算中很重要的一环便是对span表示的计算。首先每个词具有一个固定的word embedding向量表示，为了解决OOV问题，还引入了了character CNN。使用bi-LSTM对span进行编码，x_t为固定的word embedding, 对于每句话使用独立的biLSTM进行编码，再使用注意力进行加权，最后再加入关于span的长度信息，一同构成最终的representation。 Inference 为了加快inference,只有长度不超过预先给定值，并且mention score 排在前lambdaT的span会被考虑。这里的剪枝方法是选择mention score最高的那部分。在具体实现中，max length被设为10。

Jul 20, 2021 1 min read

(Paper Weekly05) TextFooler: A Strong Baseline for Natural Language Attack

(先吐槽一下，为啥NLP文章老喜欢强调strong baseline这一点…是有什么执念吗？) 太长不看版：通过让模型接触到人工生成的对抗样本可以提高其在文本任务上的表现，这是广泛共识。本文提出的生成方式简单有效，先计算每个词的“重要性”，再去掉stop words。之后对于每个词进行替换尝试，尝试方法就是直接将词和vocabulary中的其他所有词计算相似度，选择能够使得分类结果发生变化的词。

May 25, 2021 1 min read