
当时,来自斯坦福、牛津和谷歌的团队提出通过重复采样来扩大推理计算量——
结果是编码任务的性能提高了 40%。
他们发现,通过生成多个答案/样本,小型模型可以在一次尝试中比某些大型模型更好地执行任务。
例如,-Coder 通过重复采集 5 个样本,性能优于 GPT-4o,但成本仅为后者的三分之一。
这篇论文是关于什么的?
这篇论文的名字的灵感来自于无限猴子定理。
一只猴子在打字机键盘上随机敲击无限长的时间,几乎肯定会键入任何给定的文本。


在大模型的背景下,只要取足够多的样本,大模型总能找到正确的解。
本文遵循的重复采样过程首先通过从大型模型中采样来生成给定问题的许多候选解决方案。
接下来,选择特定领域(例如代码)中的验证器,并从生成的样本中选择最终答案。
重复采样的有效性取决于两个关键属性。
覆盖率,随着样本数量的增加,我们可以用任何生成的样本解决多少问题。
准确性,在从生成的样本集中选择最终答案的情况下,我们能否识别出正确的样本?
他们关注的是或否任务,其中答案可以直接评分为对或错,主要指标是成功率——即可以解决问题的比例。
通过重复采样,请考虑模型在尝试解决问题时可以生成许多候选解决方案的设置。
因此,成功率既受到为许多问题生成正确样本的能力(即覆盖范围)的影响,也受到识别这些正确样本的能力(即精度)的影响。

在此基础上,确定了五个数学和编程任务:GSM8K、MATH、-MATH、、SWE-。
结果表明,在多个任务和模型中,覆盖率随着样本数量的增加而提高,并且在某些情况下,重复采样允许较弱的模型以更具成本效益的方式胜过具有更好单样本性能的较强模型
例如,使用Gemma-2B解决编程问题时。随着样本数量的增加,覆盖率增加了300多倍,从一次尝试的0.02%增加到10,000次尝试的7.1%。在解决 GSM8K 和 MATH 的数学应用题时,Llama-3 模型的覆盖率在 10,000 个样本下增长到 95% 以上。
有趣的是,对数(覆盖率)和样本数量之间的关系往往遵循近似幂律。
在 Llama-3 和 Gemma 模型中,可以观察到覆盖范围随着样本数量呈近似对数线性增加,增加了几个数量级。

在不同参数量、不同模型和训练后水平(基本模型和微调模型)下,通过重复采样推理时间计算,表明覆盖率持续提高。

此外,他们还以 LIama-3 为例,以 FLOPs 作为成本指标,证明了该方法还可以降低成本、提高效率。
计算公式如下:


比较 Llama-3-8B- 和 -70B- 的成本(通过推理 FLOP 次数衡量)和覆盖率。当 FLOPs 预算固定时,Llama-3-8B- 的覆盖范围始终高于 GSM8K 和 MATH 上较大(更昂贵)的 70B 型号。然而,在 中,70B 型号几乎总是更具成本效益。

对比API成本,当样本较多时,开源-Coder-V2-模型可以达到与闭源模型GPT-4o相同的问题解决率,而价格仅为后者的三分之一。

有趣的是,他们发现对于大多数任务和模型,覆盖率和样本数量之间的关系可以通过指数幂律来建模。

因此,综上所述,本文主要通过重复采样来扩大推理时的计算量,从而提高模型性能。
在一系列模型和任务中,重复采样可以显着提高使用任何生成的样本解决问题的比例(即覆盖率)。当可以识别正确的解决方案时(通过自动验证工具或其他验证算法),重复采样可以在推理过程中放大模型的能力。
与使用更强、更昂贵的模型和更少的尝试相比,这种放大可以使较弱的模型与大量样本的组合更具性能和成本效益。

来自斯坦福大学牛津谷歌
这篇论文来自斯坦福大学、牛津大学和谷歌的团队。提供计算支持。
其中包括来自谷歌的杰出科学家 Quoc V. Le。

有网友表示,这有点像o3的更简单的静态版本。

o3在评估者的指导下通过回溯动态搜索程序空间,而该方法依赖于静态采样和事后评估(投票、奖励模型等)。两者都可以扩展推理计算,但 O3 的适应性更强。
o3将迭代探索解决方案并不断改进路径,而重复采样将并行生成输出,没有反馈循环。如何选择? o3 的计算量更大,但在需要结构化推理的任务中表现良好。这种方法在编码/数学方面更具成本效益。
不过,也有网友指出了其背后的局限性。


我们不能盲目增加样本数量来提高性能。在某些时候,模型将停止,生成的样本将开始重复。
无论成本如何,模型都存在一个无法超越的极限、思维的最高水平。
参考链接:
[1]
[2]
[3]
本文来自微信公众号“量子比特”,作者:小娇,36氪授权发布。


