大语言模型的“自我纠正”:改得越多,错得越离谱?

2023-10-24 16:31

封面png.png


近期,大模型被曝存在重大缺陷,该发现引起了AI界大佬Yann LeCun和Gary Marcus的关注。

实验数据显示,这种模型在尝试自我纠正后,其准确率从原本的16%骤降至1%。


简而言之,LLM在推理任务中只有在知道正确答案时,通过自我纠正才能提高输出质量。否者无法通过自我纠正的形式改进输出。


数据1.png



ASU的研究人员最近发表的两篇论文,驳斥了先前研究中提出的“自我纠正”方法。这种方法认为,只需让大模型对自己的输出结果进行自我纠正,就可以提高其输出的质量。


论文2.png论文3.png


值得注意的是,该研究的共同作者,Subbarao Kambhampati教授,之前在9月份已发表过一篇文章,全盘否定了GPT-4的推理和规划能力


论文4.png


此外,DeepMind和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究者,近期也对LLM在推理任务中的“自我纠正”能力表示了怀疑。


论文5.png


当前关于大模型的自我纠正能力仍存在争议,未来研究可能会对其进行更深入的探讨。


GPT-4自我纠正效果受到质疑


研究背景:

在《GPT-4 Doesn’t Know It’s Wrong: An Analysis of

Iterative Prompting for Reasoning Problems》论文中,研究人员对GPT-4进行了一系列实验,以评估其在图形着色问题上的「自我纠正」能力。


实验过程:

研究人员首先让GPT-4解决图形着色问题,然后进一步让其对输出方案进行「自我纠正」。同时,引入了一个外部验证系统,用于评估GPT-4直接的输出和经过「自我纠正」后的输出。


数据6.png



关键发现:

GPT-4在图形着色准确率低于20%,这一点并不出人意料。但令人吃惊的是,当启用「自我纠正」功能时,准确性反而大幅降低。(图片第二个柱状条)。


数据7.png



探究其原因,发现GPT-4对于正确答案的判断能力亦是欠佳。即使偶尔给出正确答案,它的「自我纠正」机制可能会误判并进行更改。


数据8.png



然而,当外部验证器向GPT-4提供确凿的正确答案时,GPT-4可以逐步改进其解决方案,并且通过「自我纠正」提高输出质量(上图的第3-5根柱状图条)。


综合来说,在「着色问题」任务中,GPT-4的单独「自我纠正」可能会降低其输出质量,原因在于GPT-4无法确认答案的正确性。


但当有外部验证手段参与时,GPT-4的「自我纠正」功能则能有效提高输出性能。


而《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》论文是从规划任务角度审视了大型语言模型的「自我纠正」功能,得出的结论与上述发现相似。


数据9.png



核心结论是:真正能够提高输出准确性的,并非是LLM的「自我纠正」功能,而是外部独立验证器的反馈。


数据10.png



综上,LLM无法自己验证答案的正确性,必须依赖外部验证器提供正确答案,才能有效进行「自我纠正」。


大型语言模型的「着色问题」推理及验证能力


「着色问题」是一个经典的推理问题,尽管答案众多,但其正确性易于核实。因其结果的多样性,大型语言模型(LLM)的训练数据很难全面覆盖,尽量避免LLM数据被污染可能性,这些原因使得该「着色问题」成为探讨LLM推理及「自我纠正」能力的理想选择。


研究设计:

l 研究者构建自己的数据集,使用GrinPy2来处理图操作,并用Erdos-Rényi方法构建图,参数为˝p = 0.4。

l 正确答案会被转化为标准的DIMACS格式,并注明预计算的色数(chromatic number)。

l 生成了100个实例,每个实例约含24条边,节点数范围为10至17(由于经验显示,所以表现足够多样性的范围)。


下图是所示是包括LLM的初始回复、回复的返回提示(backprompt)以及最终正确的图色方案。


数据6.png


迭代返回提示的架构:

l 提示生成器:选取DIMACS实例,通过将每条边翻译为句子,并将其整体包含在一组通用指令中,将其转化为自然语言提示。

l 大型语言模型调用:使用OpenAI API调用GPT-4,并为其赋予角色「解决CSP的约束满足求解器」。


返回提示词生成:

「返回提示词生成(Backprompt Generation)」是LLM模型在验证模式下的核心功能。

LLM接收的提示主要包含图的描述与提议的着色方案。其任务是验证方案的正确性、最优性以及确保每个顶点都被正确地着色。


生成的回复有一组边是矛盾的,该着色方案即视为错误。


为了精准地比对每个点,研究人员专门构建了一个专门验证器,旨在列出所有的矛盾边。

考虑到LLM输出为自然语言形式,研究团队先将其转化为一个更易于分析的格式。为确保分析过程的一致性,研究团队设计了初始的提示,指导模型遵循确切的输出格式。此后,该响应会进一步进行正确性评估。


最终,研究者的主要关注点是LLM在找出提议的着色方案中的错误时的表现,从而进一步确认其在这一验证任务上的实用价值。


验证方法:

为深入了解LLM的验证能力,研究者检查了LLM在发现错误着色方案中的错误方面的表现。主要分析了四种着色方案:正确、缺失、非最优、随机。


数据11.png


正确:采用迭代的随机贪心策略生成的最佳无误着色方案,利用预设的色数确保其最优。

缺失:在既有的着色方案中随机选择一个节点,将其颜色修改为相邻节点的颜色。

非最优:从正确方案中随机选取一部分,为其重新分配一个新颜色。

随机:颜色的分配完全随机,所用的颜色种类与图的色数相等。


结论

数据7.png



l LLM进行提示、评估答案没有返回提示时,基线得分为16%。

l 当使用相同语言模型作为验证者时,性能急剧下降——仅1%。

l 使用外部合格的验证器时,正确回答近40%。


LLM具备验证的能力

研究人员测试了GPT-4的能力,并生成了五种不同类型的着色方案。显而易见的结果是,与LLM的自我纠正结果完全一致:模型几乎不愿意将任何答案标记为正确。LLM对100个着色方案中,只认为2个是正确的。


整个500个着色方案中,其中是有118是正确的,而LLM仅声称30个正确,实际上30个中只有5个确实正确。


总的来看,这种模式相对稳定。在不超过10%的情况下,LLM产生了“正确”、“非最优”或“缺少”的回应,而这些回应显得有些随意。


在四分之一的情况下,它明确指出「这是不正确的」,并准确识别出一个错误边,减少误报。

如表显示,随着错误边增多,模型的误判率下降,表示其在错误增多时更能精准判断。


数据8.png


LLM自我批评效果下滑,性能未见提升


近日,一份于12日提交至arXiv的研究论文指出,即使是当前最为先进的GPT-4大模型,也面临在规划、算术或逻辑任务上的局限性。虽然此前,研究者尝试通过自我迭代和验证等策略提高其性能,让业界对大模型抱有期待,但新的研究结果可能会改变这一看法。


这份由ASU研究团队发表的论文详细评估了LLM在规划任务中自我批评和迭代优化的能力。

研究采用了一个由GPT-4生成器和GPT-4验证器组成的系统,前者生成候选计划,而后者则验证计划的正确性并提供反馈。


数据9.png


研究的焦点放在了Blocksworld规划领域,进行了以下主要评估:

l 自我批评对LLM+LLM系统计划生成性能的实际影响;

l LLM验证器相对于真实情况验证的效果;

l 反馈详细程度对总体系统性能的影响。


令人遗憾的是,研究结果显示,自我批评模式下的LLM规划生成性能与采用外部可靠验证器的性能相比,呈现出下降趋势。


数据10.png


这一下滑主要归因于验证器LLM的不理想表现,其中,验证器LLM的二元分类准确率仅为61%,并产生了大量将错误规划误判为正确的假阳性。


除此之外,根据反馈的详细程度对比,发现其对规划生成性能的影响不显著。


数据12.png

总而言之,这一深度调查为业界提供了宝贵的参考,对于LLM在自我批评框架下作为规划任务验证者的有效性提出了质疑。


参考论文地址:

https://arxiv.org/abs/2310.12397

https://arxiv.org/abs/2310.08118

https://arxiv.org/abs/2305.15771

https://arxiv.org/abs/2310.01798

图片数据来自论文:

GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems》

Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png


关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


交流.png

扫码交流,一起构建企业人工智能的未来