To CoT or not to CoT?思维链是否会成为 LLM 的标配?

   日期:2024-09-20     来源:网络整理    作者:二手钢材网    浏览:220    评论:0    
核心提示:下面我们通过对一系列问题的解答来了解实验结果。的有用性的影响不大。是两个范围广泛的数据集,因此很难简单地描述它们的特征。可以看到,其中一些与数学有关,这不出人意料,但也有的属于「商业」等类别。这个符号非常关键,可以说是「符号推理的一个强有力的标志」。有助于符号推理任务的原因。

ο1 的诞生大大提升了人们对 LLM 推理能力和思路链(CoT)的兴趣。有一段时间,似乎思路链很快就会成为所有 LLM 的标准,但思路链并不是万能的。就连 ο1 自己也提到,它在某些任务上的表现并不比 GPT-4o 好,尤其是以语言为中心的任务。

近日,一篇来自德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的论文引发热议,论文中模仿莎士比亚《哈姆雷特》的台词,向人工智能研究者和从业者提出了一个至关重要的问题:To CoT or not to CoT?

_o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战

论文标题:CoT 还是不 CoT?数学和

论文地址:

图书馆:(待更新)

简而言之,本文研究了思路链(CoT)技术在帮助 LLM 解决各种问题方面的有效性。

首先,研究团队分析了最近的相关文献,并将 CoT 与直接回答方法(DA)的性能进行了比较。

然后,他们使用 20 个数据集和 14 个当前主流的 LLM 在零样本和少样本提示设置下进行了实验。

图1简要总结了这两项研究的结果。

_o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战

o1带火的CoT到底行不行?新论文引发了论战__o1带火的CoT到底行不行?新论文引发了论战

结果表明,CoT 可以极大地帮助 LLM 解决涉及数学和符号推理的任务。对于其他任务,CoT 的效果并不显著,甚至可能损害模型性能。

另一个发现是,CoT 可以帮助改进执行计算和符号运算的执行步骤,但它不如可以使用外部工具的 LLM。这意味着什么?该团队发现,与使用直接答案方法相比,LLM 在使用 CoT 时可以更好地生成可执行的正式解决方案计划;但如​​果使用语言模型生成解决方案计划,然后使用外部符号求解器来求解该计划,则性能甚至更佳。

这个结果突然让 CoT 陷入了一个有些尴尬的境地:对于 CoT 有用的问题,我们可以使用外部工具来做得更好;对于其他问题,CoT 的能力是有限的。

因此,该团队认为:“首先,许多广泛使用 CoT 解决的问题实际上根本不需要 CoT:现在有更有效的方法,可以以更低的推理成本实现类似的性能。其次,基于提示的 CoT 是不够的,我们迫切需要更复杂的方法,例如基于搜索、交互式代理或针对 CoT 进行了更好微调的模型的方法。”

文献研究

首先,研究小组调查了最近的文献,并比较了有和没有 CoT 的提示词的效果。

具体指标和流程我就不多说了,简单来说,他们整理了110篇论文(35篇ICLR论文,75篇NAACL和EACL论文)的1218个实验结果,涉及264个数据集,之后把这些相关任务分成了14个类别,表1列出了其中几个类别的定义。

o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战_

文献研究成果

图 2 展示了 CoT 对不同类型任务的性能增益,即使用 CoT 提示获得的性能减去使用直接答案获得的性能。

o1带火的CoT到底行不行?新论文引发了论战__o1带火的CoT到底行不行?新论文引发了论战

可以看到,CoT 在这些任务上只能带来平均 3.75% 的提升。CoT 带来最大提升的三类任务是:符号推理、数学和逻辑推理。在这三项任务上,CoT 实现的平均性能为 56.9,而没有 CoT 的性能为 45.5。在其他任务上表现良好的示例(图中用黄色突出显示的 10 个)也或多或少与这三个任务有关。

但在其他任务上,CoT 的表现就不那么亮眼了,平均得分只有 56.8,而即使没有 CoT,直接回答的方法也能得到 56.1。团队认为,这点小进步甚至不能算是一种进步,毕竟 CoT 的计算成本明显更高。

实验研究

除了研究最近的文献之外,该团队还进行了涉及 20 个数据集和 14 个模型的实验,并测试了零样本和少样本提示设置,见表 2。

o1带火的CoT到底行不行?新论文引发了论战__o1带火的CoT到底行不行?新论文引发了论战

实验研究结果

接下来我们将通过回答一系列问题来了解实验结果。

1. 在哪些任务上零样本 CoT 的表现优于直接提示?

图 3(左)显示了 CoT 在五个推理类别上的平均性能增益(见图 1(右));图 3(右)显示了 CoT 在每个数据集上的平均性能增益。

_o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战

我们可以看到,在非符号推理类别和数据集上,尤其是那些主要包含常识(CSQA、PIQA、SiQA)、语言理解()和阅读理解(AGI LSAT、ARC-Easy、ARC-)的问题,零样本 CoT 和零样本直接回答之间的性能几乎没有区别。虽然这些数据集涉及推理,但 CoT 并没有带来收益。

相比之下,数学和符号类别(以及符号和半符号数据集)的收益更大。CoT 在 MATH 和 GSM8k 上分别获得了高达 41.6% 和 66.9% 的收益。CoT 在半符号数据集(例如和 MuSR)上表现出中等收益。这些数据集需要应用逻辑规则才能得出答案,例如从简单自然语言()或更复杂的常识性陈述(MuSR)解析的一阶逻辑。

在小样本设置中也获得了类似的实验结果。

2. 答复的格式是否影响CoT的实用性?

许多数学之外的常用数据集都是多项选择题,研究小组表明,对于两个非多项选择题的数据集(以及 Bench,需要不同程度的非符号推理才能回答),CoT 的表现与直接回答类似。

因此,可以说,回答格式对 CoT 的实用性影响不大。此外,该团队还表示,提前规划或推理正确的回答方式甚至可能会妨碍 LLM 的自由回答能力。

3. CoT 是否会给知识、软推理和常识推理带来显著的提升?

团队在涉及知识、软推理、常识推理的13个数据集上测试了CoT的性能,发现除了MMLU、MuSR之外,答案是否定的。在这三个数据集上,CoT都能带来比较明显的增益。

MMLU和MMLU Pro详细研究

MMLU和MMLU Pro是两个范围很广的数据集,很难简单描述它们的特点。团队详细研究了MMLU中CoT在各个类别上的表现,以了解CoT在不同领域的表现差异。

表 3 显示了 CoT 可以为 MMLU 和 MMLU Pro 上的 Llama 3.1 8B 和 70B 带来最显著改进的三个类别。

_o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战

可以看到,其中一些与数学有关,这并不奇怪,但也有一些属于“商业”等类别。然而,进一步的研究表明,这些类别通常也涉及数学(例如资产计算等)。

因此,团队对MMLU(实例级别)进行了更细粒度的研究。他们发现问题或生成的答案是否包含=符号非常关键,可以说是“符号推理的强烈标志”。结果如图4所示。

_o1带火的CoT到底行不行?新论文引发了论战_o1带火的CoT到底行不行?新论文引发了论战

可以看到,当有=时,CoT在MMLU和MMLU Pro上的表现明显更好。团队认为这是因为=经常出现在数学问题中。所以最终CoT在数学问题上仍然可以帮助MMLU和MMLU Pro。

形式推理中 CoT 的优势与劣势

我们先来解释一下为什么 CoT 能够帮助符号推理任务。很多符号和半符号推理任务可以分为两个阶段:规划和执行。团队也基于这个想法进行了分析。

设置 1 和 2:少样本直接回答和 CoT:我们使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了 GSM8K 上每个设置的示例。

o1带火的CoT到底行不行?新论文引发了论战__o1带火的CoT到底行不行?新论文引发了论战

设置 3 和 4:规划 + 直接求解器和规划 + CoT 求解器。

设置 5:规划 + 工具求解器。

评估结果

图6显示了所选代表性模型的结果。

o1带火的CoT到底行不行?新论文引发了论战__o1带火的CoT到底行不行?新论文引发了论战

如您所见,对于许多数据集和模型,仅靠规划不足以带来显着的性能提升。与直接回答相比,CoT 或规划 + CoT 求解器是实现强大性能的必需品。使用其中一种方法跟踪执行情况可提供最大的准确性优势,尤其是对于数学内容繁重的数据集。

虽然 CoT 或规划 + CoT 求解器比直接答案和规划 + 直接答案强,但大多数情况下规划 + 工具求解器仍然更好。也就是说,在很多情况下,使用 CoT 比让 LLM 使用工具更糟糕。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2