Paper-Weekly10-WebBrain
这篇文章设计了一个新任务,根据query进行搜索,在网上自动获取相关的证据,并把搜索结果用于生成短的,符合事实的文章。生成的目标是维基百科里没有的、factually-correct的短文章。他们通过爬取维基百科构造了一个大规模的数据集,比之前类似的数据集大10倍。同时他们还设计了一个将检索与生成相结合的框架ReGen。
ReGen基于当前最先进的方法(SPLADE+FiD+BART)进行改进,主要有以下三点:
- 控制检索证据的话题一致性
- 在生成过程中引入citation mark从而保证引用的来源
- 引入基于事实的自监督任务
webBrain区别于已有工作的创新点在于:
- 已有工作大多利用模型实现存储的参数化知识(0shot),容易生成幻觉,而webbrain使用网络上挖掘的信息,可能更可信一些;
- 检索增强QA只需要给出一个简单的span或者生成一个简单的句子,而webbain探索了如何综合利用所有的网络信息来生成一篇comprehensive且准确的短文
- 比MDS更难,并不是简单总结已有文章,还需要挖掘evidence
- webGPT需要记录人类用户的交互行为,webbrain只是基于已经生成的维基百科文章,更加可行。
为什么他们一定非得收集网上现成的wiki呢,而且所谓的挖掘信息,不就是把wiki里的url做一个filter吗?请问搜索引擎用在哪?意思是人工标好的就算是挖掘吗。再退一步,wiki的写法一般都是先写再加引用,我引用是为了去佐证我写的的准确性,而不是根据网页的内容做总结。所以这文章就很扯。
Anyway,还是看看他们的具体做法吧。