推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

To CoT or not to CoT？思维链是否会成为 LLM 的标配？

日期：2024-09-20 来源：网络整理作者：二手钢材网浏览：220 评论：0

核心提示：下面我们通过对一系列问题的解答来了解实验结果。的有用性的影响不大。是两个范围广泛的数据集，因此很难简单地描述它们的特征。可以看到，其中一些与数学有关，这不出人意料，但也有的属于「商业」等类别。这个符号非常关键，可以说是「符号推理的一个强有力的标志」。有助于符号推理任务的原因。

ο1 的诞生大大提升了人们对 LLM 推理能力和思路链（CoT）的兴趣。有一段时间，似乎思路链很快就会成为所有 LLM 的标准，但思路链并不是万能的。就连 ο1 自己也提到，它在某些任务上的表现并不比 GPT-4o 好，尤其是以语言为中心的任务。

近日，一篇来自德克萨斯大学奥斯汀分校、约翰霍普金斯大学和普林斯顿大学的论文引发热议，论文中模仿莎士比亚《哈姆雷特》的台词，向人工智能研究者和从业者提出了一个至关重要的问题：To CoT or not to CoT？

_o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战

论文标题：CoT 还是不 CoT？数学和

论文地址：

图书馆：（待更新）

简而言之，本文研究了思路链（CoT）技术在帮助 LLM 解决各种问题方面的有效性。

首先，研究团队分析了最近的相关文献，并将 CoT 与直接回答方法（DA）的性能进行了比较。

然后，他们使用 20 个数据集和 14 个当前主流的 LLM 在零样本和少样本提示设置下进行了实验。

图1简要总结了这两项研究的结果。

_o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战

o1带火的CoT到底行不行？新论文引发了论战__o1带火的CoT到底行不行？新论文引发了论战

结果表明，CoT 可以极大地帮助 LLM 解决涉及数学和符号推理的任务。对于其他任务，CoT 的效果并不显著，甚至可能损害模型性能。

另一个发现是，CoT 可以帮助改进执行计算和符号运算的执行步骤，但它不如可以使用外部工具的 LLM。这意味着什么？该团队发现，与使用直接答案方法相比，LLM 在使用 CoT 时可以更好地生成可执行的正式解决方案计划；但如果使用语言模型生成解决方案计划，然后使用外部符号求解器来求解该计划，则性能甚至更佳。

这个结果突然让 CoT 陷入了一个有些尴尬的境地：对于 CoT 有用的问题，我们可以使用外部工具来做得更好；对于其他问题，CoT 的能力是有限的。

因此，该团队认为：“首先，许多广泛使用 CoT 解决的问题实际上根本不需要 CoT：现在有更有效的方法，可以以更低的推理成本实现类似的性能。其次，基于提示的 CoT 是不够的，我们迫切需要更复杂的方法，例如基于搜索、交互式代理或针对 CoT 进行了更好微调的模型的方法。”

文献研究

首先，研究小组调查了最近的文献，并比较了有和没有 CoT 的提示词的效果。

具体指标和流程我就不多说了，简单来说，他们整理了110篇论文（35篇ICLR论文，75篇NAACL和EACL论文）的1218个实验结果，涉及264个数据集，之后把这些相关任务分成了14个类别，表1列出了其中几个类别的定义。

o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战_

文献研究成果

图 2 展示了 CoT 对不同类型任务的性能增益，即使用 CoT 提示获得的性能减去使用直接答案获得的性能。

o1带火的CoT到底行不行？新论文引发了论战__o1带火的CoT到底行不行？新论文引发了论战

可以看到，CoT 在这些任务上只能带来平均 3.75% 的提升。CoT 带来最大提升的三类任务是：符号推理、数学和逻辑推理。在这三项任务上，CoT 实现的平均性能为 56.9，而没有 CoT 的性能为 45.5。在其他任务上表现良好的示例（图中用黄色突出显示的 10 个）也或多或少与这三个任务有关。

但在其他任务上，CoT 的表现就不那么亮眼了，平均得分只有 56.8，而即使没有 CoT，直接回答的方法也能得到 56.1。团队认为，这点小进步甚至不能算是一种进步，毕竟 CoT 的计算成本明显更高。

实验研究

除了研究最近的文献之外，该团队还进行了涉及 20 个数据集和 14 个模型的实验，并测试了零样本和少样本提示设置，见表 2。

o1带火的CoT到底行不行？新论文引发了论战__o1带火的CoT到底行不行？新论文引发了论战

实验研究结果

接下来我们将通过回答一系列问题来了解实验结果。

1. 在哪些任务上零样本 CoT 的表现优于直接提示？

图 3（左）显示了 CoT 在五个推理类别上的平均性能增益（见图 1（右））；图 3（右）显示了 CoT 在每个数据集上的平均性能增益。

_o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战

我们可以看到，在非符号推理类别和数据集上，尤其是那些主要包含常识（CSQA、PIQA、SiQA）、语言理解（）和阅读理解（AGI LSAT、ARC-Easy、ARC-）的问题，零样本 CoT 和零样本直接回答之间的性能几乎没有区别。虽然这些数据集涉及推理，但 CoT 并没有带来收益。

相比之下，数学和符号类别（以及符号和半符号数据集）的收益更大。CoT 在 MATH 和 GSM8k 上分别获得了高达 41.6% 和 66.9% 的收益。CoT 在半符号数据集（例如和 MuSR）上表现出中等收益。这些数据集需要应用逻辑规则才能得出答案，例如从简单自然语言（）或更复杂的常识性陈述（MuSR）解析的一阶逻辑。

在小样本设置中也获得了类似的实验结果。

2. 答复的格式是否影响CoT的实用性？

许多数学之外的常用数据集都是多项选择题，研究小组表明，对于两个非多项选择题的数据集（以及 Bench，需要不同程度的非符号推理才能回答），CoT 的表现与直接回答类似。

因此，可以说，回答格式对 CoT 的实用性影响不大。此外，该团队还表示，提前规划或推理正确的回答方式甚至可能会妨碍 LLM 的自由回答能力。

3. CoT 是否会给知识、软推理和常识推理带来显著的提升？

团队在涉及知识、软推理、常识推理的13个数据集上测试了CoT的性能，发现除了MMLU、MuSR之外，答案是否定的。在这三个数据集上，CoT都能带来比较明显的增益。

MMLU和MMLU Pro详细研究

MMLU和MMLU Pro是两个范围很广的数据集，很难简单描述它们的特点。团队详细研究了MMLU中CoT在各个类别上的表现，以了解CoT在不同领域的表现差异。

表 3 显示了 CoT 可以为 MMLU 和 MMLU Pro 上的 Llama 3.1 8B 和 70B 带来最显著改进的三个类别。

_o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战

可以看到，其中一些与数学有关，这并不奇怪，但也有一些属于“商业”等类别。然而，进一步的研究表明，这些类别通常也涉及数学（例如资产计算等）。

因此，团队对MMLU（实例级别）进行了更细粒度的研究。他们发现问题或生成的答案是否包含=符号非常关键，可以说是“符号推理的强烈标志”。结果如图4所示。

_o1带火的CoT到底行不行？新论文引发了论战_o1带火的CoT到底行不行？新论文引发了论战

可以看到，当有=时，CoT在MMLU和MMLU Pro上的表现明显更好。团队认为这是因为=经常出现在数学问题中。所以最终CoT在数学问题上仍然可以帮助MMLU和MMLU Pro。

形式推理中 CoT 的优势与劣势

我们先来解释一下为什么 CoT 能够帮助符号推理任务。很多符号和半符号推理任务可以分为两个阶段：规划和执行。团队也基于这个想法进行了分析。

设置 1 和 2：少样本直接回答和 CoT：我们使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了 GSM8K 上每个设置的示例。

o1带火的CoT到底行不行？新论文引发了论战__o1带火的CoT到底行不行？新论文引发了论战

设置 3 和 4：规划 + 直接求解器和规划 + CoT 求解器。

设置 5：规划 + 工具求解器。

评估结果

图6显示了所选代表性模型的结果。

o1带火的CoT到底行不行？新论文引发了论战__o1带火的CoT到底行不行？新论文引发了论战

如您所见，对于许多数据集和模型，仅靠规划不足以带来显着的性能提升。与直接回答相比，CoT 或规划 + CoT 求解器是实现强大性能的必需品。使用其中一种方法跟踪执行情况可提供最大的准确性优势，尤其是对于数学内容繁重的数据集。

虽然 CoT 或规划 + CoT 求解器比直接答案和规划 + 直接答案强，但大多数情况下规划 + 工具求解器仍然更好。也就是说，在很多情况下，使用 CoT 比让 LLM 使用工具更糟糕。

标签： 文本内容文献研究结果

打赏

更多>同类资讯

0 条相关评论

• 废钢回收及各类回收信息对接:价格、平台与合作	• Windows 11 预览版隐藏功能曝光：支持自定义网
• 2020年全球粗钢产量：较2019年下降0.9%	• 联想产品经理：笔记本电脑短期内不会用上 10.7G
• 蔚来第二个品牌乐道出牌，L60 正式售价公布，编	• ChatGPT 新模型 O1 禁止询问思考方式，违者或被
• 水月雨 UltraSonic 超声波圈铁混合式 HiFi 真无	• 甘肃泾川首次发现国家一级保护野生动物黑鹳，引
• iPhone 16 机模上手视频曝光，外观设计有哪些升	• 绥江县后坝村农产品交易中心建设项目支护桩工程

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

To CoT or not to CoT？思维链是否会成为 LLM 的标配？

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司