o1之所以能够实现远超GPT-4o的推理能力,关键在于它采用了基于思维链(Chain of)的强化学习。就像人类在回答难题之前可能会思考很长时间一样,o1 在尝试解决问题时也会使用思维链。通过思维链,模型会将任务分解为更简单的步骤并逐步解决,这通常比让模型直接输出问题的答案更准确。
事实上,思维链并不是一个新概念。早在GPT-3发布之前,科学研究人员就发现思维链可以指导大型语言模型进行推理。
大语言模型使用思维链的例子(图片来源:根据参考文献2翻译)
上图中的例子有两组大语言模型的输入和输出。在输入中,首先向模型输入一个关于数网球数量的问答,然后向模型提出类似的问题,让模型数苹果的数量。
左下方是一个直接的问答,模型给出了错误的答案。下面右侧是一个使用思维链的问答。研究人员将有关网球数量的问答补充输入到模型中,向模型展示了得到网球数量的推理过程,然后要求模型回答苹果的数量。
这次,模型通过推理正确计算出了苹果的数量。这种引导模型针对问题生成一系列中间推理步骤的方法称为思维链。通过思维链,大语言模型可以详细直观地展示解决问题时的推理步骤,不仅提高了大语言模型解决推理问题时的准确性,而且使大语言模型的答案具有可解释性。 ,不再是一个完整的黑匣子。
GPT-3发布后,人们进一步发现了这个提示的重要性()。对于能力很强的大型语言模型,甚至不需要像前面提问时数网球数量的例子那样给出例子。您只需要告诉模型“让我们一步一步思考”即可改进模型处理。推理复杂问题的能力。
上述尝试都是为了在向模型提问时添加指导。如果思维链这么有用,那么模型构建和训练时能否将思维链固化在模型内部?这是o1尝试过的。
o1和新法则(缩放法则)的强化学习
GPT模型回答问题时,本质上是在表演“文本接龙”。它根据训练时大量的统计概率数据,估计出什么样的答案最适合在模型的输入下继续书写。
为了让大语言模型能够学习如何使用思维链,而不是仅仅根据概率继续,o1使用了一种称为强化学习的机器学习方法。
强化学习是指模型通过“试错”的方法进行学习。在训练过程中,模型不会被告知标准结果是什么,但会被告知其结果有多好或多坏。当模型的结果正确时,模型将倾向于在未来的输出中采用该结果;当模型的结果错误时,它会倾向于在未来的输出中避免这种结果。经过多轮试错,模型会根据自己的经验学习出一套判断标准。
强化学习,一种不给出标准答案的学习方法,适用于复杂环境下的决策问题,如机器人控制、金融交易、棋类游戏等领域。在这些领域,我们常常无法给出标准意义上的正确答案,我们只能知道采取行动的结果。比如机器人是否摔倒、金融交易是否盈利、比赛是否获胜。
强化学习的一个著名案例就是2016年开发的围棋AI。在围棋领域,可能的棋局总数甚至超过了可观测宇宙中的原子总数,即使是顶尖的围棋高手也无法判断什么是最好的着法在任何情况下。因为Go太复杂了,不可能费尽心思找到最好的方法。在它出现之前,人们一度认为人工智能不可能在围棋中击败人类。
它通过强化学习进行训练,可以与自己下棋,并从每场比赛的胜利或失败中学习。它不需要人类告诉它哪一步是正确的,也不需要学习任何人类过去的国际象棋记录。经过短短几天的训练,已经达到了人类棋手梦寐以求的水平。
在决策过程中,它首先对局势进行粗略判断,确定在哪里下棋,使其更有可能获胜。这种感觉或直觉通常被人类称为棋感。在粗略判断出棋子的哪一步棋更有可能有利之后,进一步计算这些不同棋步的后续概率,并从中选择最佳棋步。
因此,影响玩家实力的因素主要有两个,一是判断局势的能力,二是计算可能走法所需的计算量。其中,模型的强化学习过程可以提高模型判断情况的能力。
自玩(图片来源:参考1)
在o1的训练中,通过强化学习,o1学会磨练自己的思维链,完善自己使用的策略。它学会将困难的问题分解为更简单的步骤,在分析过程中识别并纠正错误。这个过程极大地提高了模型的推理能力。
学会使用思维链后,o1的输入不再需要手动引导才能使用思维链。相反,建议在使用O1时保持提示简单直接,避免使用思维链提示。
在o1的测试中,研究人员发现,增加强化学习训练的时间以及在推理时增加更多的思考时间可以提高模型的性能,这与前面提到的强度的影响因素一致。
o1 定律(图片来源:)
研究人员在2020年发现了大型语言模型的法则(Law of Scale)。大型语言模型的性能会随着模型规模、训练集规模以及训练时计算量的增加而提高。
o1 显示了一条新定律。在提高模型性能方面,还可以通过增加推理时间使模型获得更强的性能,这为未来大型语言模型的进一步发展提供了新的可能性。
o1系列目前包含三个型号,o1、o1-、o1-mini。它们的模型大小不同,o1最大,推理能力最强,o1-mini最小,但使用时消耗成本较少。他们在数学竞赛中的表现如下图所示。 o1-mini 在数学竞赛中的表现甚至比 o1- 更好,但在其他需要非 STEM(科学、技术、工程、数学)知识的任务上表现较差。不同之处。同时,随着推理时间的增加,三个模型的性能都会提高。
不同版本o1模型在数学竞赛中的表现(图片来源:)
o1会带来更多安全问题吗?
o1模型的突破无疑进一步提升了大语言模型的能力。他曾提出构建通用人工智能(AGI)的五个阶段。第一阶段是实现可以与人交流的人工智能,第二阶段是实现具有推理能力的人工智能。第一阶段的目标已经达到,o1的出现让我们离第二阶段又近了一步。
尽管o1展现出强大的推理能力,正如研究人员担心Q*一样,人们不禁怀疑o1是否会带来更多的安全问题。
报告指出,思想链为提高模型的安全性提供了新的机会。在训练过程中,可以将人类的价值观融入到模型的思维链中,从而使模型拒绝执行有害行为。同时,思维链可以让我们清晰地观察模型的思维,从而增强模型的安全性。
未来或许超乎想象
目前,o1版本和mini版本已经向用户开放,后续还将添加浏览、文件、图片上传等实用功能。它在真实场景中的表现如何,还有待进一步体验和测试。总而言之,o1在推理能力上的重要进步,或许意味着我们距离通用人工智能又近了一步。让我们继续期待人工智能未来将走向何方,能否为人类社会的福祉带来更大的贡献。
参考:
、D.、、J.、、K. 等人。人类围棋游戏。 550, 354–359 (2017)。
出品:科普中国


