Paper-Weekly10-WebBrain

Aug 17, 2023 1 min read

这篇文章设计了一个新任务，根据query进行搜索，在网上自动获取相关的证据，并把搜索结果用于生成短的，符合事实的文章。生成的目标是维基百科里没有的、factually-correct的短文章。他们通过爬取维基百科构造了一个大规模的数据集，比之前类似的数据集大10倍。同时他们还设计了一个将检索与生成相结合的框架ReGen。

ReGen基于当前最先进的方法（SPLADE+FiD+BART）进行改进，主要有以下三点：

控制检索证据的话题一致性
在生成过程中引入citation mark从而保证引用的来源
引入基于事实的自监督任务

webBrain区别于已有工作的创新点在于：

已有工作大多利用模型实现存储的参数化知识（0shot），容易生成幻觉，而webbrain使用网络上挖掘的信息，可能更可信一些；
检索增强QA只需要给出一个简单的span或者生成一个简单的句子，而webbain探索了如何综合利用所有的网络信息来生成一篇comprehensive且准确的短文
比MDS更难，并不是简单总结已有文章，还需要挖掘evidence
webGPT需要记录人类用户的交互行为，webbrain只是基于已经生成的维基百科文章，更加可行。

为什么他们一定非得收集网上现成的wiki呢，而且所谓的挖掘信息，不就是把wiki里的url做一个filter吗？请问搜索引擎用在哪？意思是人工标好的就算是挖掘吗。再退一步，wiki的写法一般都是先写再加引用，我引用是为了去佐证我写的的准确性，而不是根据网页的内容做总结。所以这文章就很扯。

Anyway，还是看看他们的具体做法吧。

技术 NLP

Paper-Weekly10-WebBrain

陈沁宇

Master Student@PKU