ο1 的诞生大大提升了人们对 LLM 推理能力和思路链(CoT)的兴趣。有一段时间,似乎思路链很快就会成为所有 LLM 的标准,但思路链并不是万能的。就连 ο1 自己也提到,它在某些任务上的表现并不比 GPT-4o 好,尤其是以语言为中心的任务。
近日,一篇来自德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的论文引发热议,论文中模仿莎士比亚《哈姆雷特》的台词,向人工智能研究者和从业者提出了一个至关重要的问题:To CoT or not to CoT?

论文标题:CoT 还是不 CoT?数学和
论文地址:
图书馆:(待更新)
简而言之,本文研究了思路链(CoT)技术在帮助 LLM 解决各种问题方面的有效性。
首先,研究团队分析了最近的相关文献,并将 CoT 与直接回答方法(DA)的性能进行了比较。
然后,他们使用 20 个数据集和 14 个当前主流的 LLM 在零样本和少样本提示设置下进行了实验。
图1简要总结了这两项研究的结果。


结果表明,CoT 可以极大地帮助 LLM 解决涉及数学和符号推理的任务。对于其他任务,CoT 的效果并不显著,甚至可能损害模型性能。
另一个发现是,CoT 可以帮助改进执行计算和符号运算的执行步骤,但它不如可以使用外部工具的 LLM。这意味着什么?该团队发现,与使用直接答案方法相比,LLM 在使用 CoT 时可以更好地生成可执行的正式解决方案计划;但如果使用语言模型生成解决方案计划,然后使用外部符号求解器来求解该计划,则性能甚至更佳。
这个结果突然让 CoT 陷入了一个有些尴尬的境地:对于 CoT 有用的问题,我们可以使用外部工具来做得更好;对于其他问题,CoT 的能力是有限的。
因此,该团队认为:“首先,许多广泛使用 CoT 解决的问题实际上根本不需要 CoT:现在有更有效的方法,可以以更低的推理成本实现类似的性能。其次,基于提示的 CoT 是不够的,我们迫切需要更复杂的方法,例如基于搜索、交互式代理或针对 CoT 进行了更好微调的模型的方法。”
文献研究
首先,研究小组调查了最近的文献,并比较了有和没有 CoT 的提示词的效果。
具体指标和流程我就不多说了,简单来说,他们整理了110篇论文(35篇ICLR论文,75篇NAACL和EACL论文)的1218个实验结果,涉及264个数据集,之后把这些相关任务分成了14个类别,表1列出了其中几个类别的定义。

文献研究成果
图 2 展示了 CoT 对不同类型任务的性能增益,即使用 CoT 提示获得的性能减去使用直接答案获得的性能。

可以看到,CoT 在这些任务上只能带来平均 3.75% 的提升。CoT 带来最大提升的三类任务是:符号推理、数学和逻辑推理。在这三项任务上,CoT 实现的平均性能为 56.9,而没有 CoT 的性能为 45.5。在其他任务上表现良好的示例(图中用黄色突出显示的 10 个)也或多或少与这三个任务有关。
但在其他任务上,CoT 的表现就不那么亮眼了,平均得分只有 56.8,而即使没有 CoT,直接回答的方法也能得到 56.1。团队认为,这点小进步甚至不能算是一种进步,毕竟 CoT 的计算成本明显更高。
实验研究
除了研究最近的文献之外,该团队还进行了涉及 20 个数据集和 14 个模型的实验,并测试了零样本和少样本提示设置,见表 2。

实验研究结果
接下来我们将通过回答一系列问题来了解实验结果。
1. 在哪些任务上零样本 CoT 的表现优于直接提示?
图 3(左)显示了 CoT 在五个推理类别上的平均性能增益(见图 1(右));图 3(右)显示了 CoT 在每个数据集上的平均性能增益。

我们可以看到,在非符号推理类别和数据集上,尤其是那些主要包含常识(CSQA、PIQA、SiQA)、语言理解()和阅读理解(AGI LSAT、ARC-Easy、ARC-)的问题,零样本 CoT 和零样本直接回答之间的性能几乎没有区别。虽然这些数据集涉及推理,但 CoT 并没有带来收益。
相比之下,数学和符号类别(以及符号和半符号数据集)的收益更大。CoT 在 MATH 和 GSM8k 上分别获得了高达 41.6% 和 66.9% 的收益。CoT 在半符号数据集(例如和 MuSR)上表现出中等收益。这些数据集需要应用逻辑规则才能得出答案,例如从简单自然语言()或更复杂的常识性陈述(MuSR)解析的一阶逻辑。
在小样本设置中也获得了类似的实验结果。
2. 答复的格式是否影响CoT的实用性?
许多数学之外的常用数据集都是多项选择题,研究小组表明,对于两个非多项选择题的数据集(以及 Bench,需要不同程度的非符号推理才能回答),CoT 的表现与直接回答类似。
因此,可以说,回答格式对 CoT 的实用性影响不大。此外,该团队还表示,提前规划或推理正确的回答方式甚至可能会妨碍 LLM 的自由回答能力。
3. CoT 是否会给知识、软推理和常识推理带来显著的提升?
团队在涉及知识、软推理、常识推理的13个数据集上测试了CoT的性能,发现除了MMLU、MuSR之外,答案是否定的。在这三个数据集上,CoT都能带来比较明显的增益。
MMLU和MMLU Pro详细研究
MMLU和MMLU Pro是两个范围很广的数据集,很难简单描述它们的特点。团队详细研究了MMLU中CoT在各个类别上的表现,以了解CoT在不同领域的表现差异。
表 3 显示了 CoT 可以为 MMLU 和 MMLU Pro 上的 Llama 3.1 8B 和 70B 带来最显著改进的三个类别。

可以看到,其中一些与数学有关,这并不奇怪,但也有一些属于“商业”等类别。然而,进一步的研究表明,这些类别通常也涉及数学(例如资产计算等)。
因此,团队对MMLU(实例级别)进行了更细粒度的研究。他们发现问题或生成的答案是否包含=符号非常关键,可以说是“符号推理的强烈标志”。结果如图4所示。

可以看到,当有=时,CoT在MMLU和MMLU Pro上的表现明显更好。团队认为这是因为=经常出现在数学问题中。所以最终CoT在数学问题上仍然可以帮助MMLU和MMLU Pro。
形式推理中 CoT 的优势与劣势
我们先来解释一下为什么 CoT 能够帮助符号推理任务。很多符号和半符号推理任务可以分为两个阶段:规划和执行。团队也基于这个想法进行了分析。
设置 1 和 2:少样本直接回答和 CoT:我们使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了 GSM8K 上每个设置的示例。

设置 3 和 4:规划 + 直接求解器和规划 + CoT 求解器。
设置 5:规划 + 工具求解器。
评估结果
图6显示了所选代表性模型的结果。

如您所见,对于许多数据集和模型,仅靠规划不足以带来显着的性能提升。与直接回答相比,CoT 或规划 + CoT 求解器是实现强大性能的必需品。使用其中一种方法跟踪执行情况可提供最大的准确性优势,尤其是对于数学内容繁重的数据集。
虽然 CoT 或规划 + CoT 求解器比直接答案和规划 + 直接答案强,但大多数情况下规划 + 工具求解器仍然更好。也就是说,在很多情况下,使用 CoT 比让 LLM 使用工具更糟糕。


