Paper-Weekly13-A Task-solving Agent Through Multi-persona Self-Collaboration

人类智能的发展基于认知协同的概念,即不同认知过程之间的协作和信息整合比孤立的单个认知过程产生更优越的结果。虽然大语言模型作为一般任务解决代理表现出了良好的性能,但它们在处理需要密集领域知识和复杂推理的任务时仍然举步维艰。

在这项工作中,作者提出了 “独奏性能提示”(Solo Performance Prompting),通过与多个角色进行多轮自我协作,将单个大型语言模型转化为认知协同者。认知协同者指的是一种智能代理,它能与多个思维进行协作,结合各自的优势和知识,在复杂任务中提高解决问题的能力和整体表现。通过根据任务输入动态识别和模拟不同的 “角色”,SPP 释放了 LLM 中认知协同的潜力。

作者发现,与使用单一或固定数量的角色相比,在LLM中分配多个细粒度的角色能激发更好的解决问题的能力。该文在三个具有挑战性的任务中对 SPP 进行了评估: Trivia Creative Writing, Codenames Collaborative, and Logic Grid Puzzle,它们包括知识密集型和推理密集型。与 Chainof-Thought 等仅能提高 LLMs 推理能力的方法不同,SPP 能有效激发内部知识获取能力,减少幻觉,并保持强大的推理能力。

本文选取的三个任务非常有意思。首先是Trivia Creative Writing,

本文的最大创新之处在于赋予了Agent不同人格的概念,人格在之前的研究工作中多见于对话,用于提供背景信息,辅助回复生成等等。之前也有一些工作研究大语言模型蕴含的人格,比如让大语言模型做MBTI测试等等,主要从模型分析的角度出发,因此其实用价值较低。本文的第二个亮点在于认知协同这一概念的引入,cognitive synergy是一个相对较老且冷门的概念,但能够为本文提供认知学和心理学上的理论支持。最后,本文在试验指标上遥遥领先,比当前公认最先进的大语言模型GPT4的表现强出不少。

本文在写作上的亮点主要在于分析部分。分析部分相对比较完整,特别是对于多人格这一概念,作者在三个测试数据集上对人格进行了可视化,直观地向读者展示其提出的方法能够有效构建出有利于解决对应问题的人格,从定性和定量的角度展示其有效性。从在三个不同任务上LLM自主识别的人格云图可以发现LLM召唤出的人格与任务强相关。在知识密集型任务(Trivia Creative Writing)上,所识别的人格更多样且具体;而在推理密集型任务上(Logic Grid Puzzle),所识别的人格更为同质化。

但同时本文也存在一些问题。首先作者只探索了,使用单个LLM,单个模型重复扮演多个persona,这导致LLM可以使用的personas数量有限。其次,对于不同的领域任务,哪些persona是有用的?每个persona能带来多少贡献?这些问题可能还需要进行进一步分析。当前的这三个任务虽然提升明显,但可能泛化性还是问题。最后是Agent领域或者整个推理领域都难以解决的问题,即哪怕是给出了合适的persona,依然可能导致回答错误。在本质上,大语言模型可能只是能比别的方法优秀一些,但是对于最核心关切的问题依然无法给出满意的答案。

陈沁宇
陈沁宇
Master Student@PKU

My research interests include natural language processing, machine learning and recommender systems.