
来源

周四,苹果研究人员团队发表了一篇题为《理解大型语言模型中数学推理的局限性》的论文,揭示了法学硕士在解决数学问题时容易受到干扰。 IT House指出,研究人员通过对数学问题进行微小的改变,例如添加不相关的信息,来测试LLM的推理能力。结果发现,当面对这样的变化时,这些模型的性能会急剧下降。
例如,当研究人员遇到一个简单的数学问题时:“奥利弗在周五采摘了 44 个猕猴桃,周六采摘了 58 个。周日,他采摘的猕猴桃数量是周五的两倍。奥利弗总共采摘了多少个猕猴桃?”奇异果?”,法学硕士能够正确计算出答案。然而,当研究人员添加了一个不相关的细节时,“周日,他采摘的奇异果数量是周五的两倍,其中有 5 个比平均水平要小。”法学硕士的答案例如,GPT-o1-mini 的答案是:“……周日,5 个新西兰人比平均水平要小。我们需要从周日的总数中减去它们:88(周日的奇异鸟)- 5(较小的奇异鸟)= 83 奇异鸟。”

上面只是一个简单的例子,研究人员修改了数百个问题,几乎全部导致模型的回答成功率大幅下降。
研究人员认为,这种现象表明LLM并没有真正理解数学问题,而只是根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否数小猕猴桃,它们就会产生奇怪的、反常的结果。
这一发现对人工智能的发展具有重要意义。尽管LLM在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高LLM的推理能力,使其能够更好地理解和解决复杂问题。


