OpenAI 发布 GPT5 之前,的下一步:强化学习与技术范式变革

   日期:2024-11-17     来源:网络整理    作者:二手钢材网    浏览:274    评论:0    
核心提示:11月16日,创始人杨植麟分享了他的观点与思考。月之暗面选择的试验场景是数学,在杨植麟看来,数学是最适合让AI锻炼思考能力的场景。杨植麟表示,公司一开始尝试过几个产品一起做,这个方式在一定时期有效,但最终发现还是要聚焦,将一款产品做到最好是月之暗面认为最重要的事。

发布 GPT5 之前下一步是什么? 11月16日,创始人杨志林分享了自己的观点和想法。

现场,月之暗面子公司Kimi发布了新一代数学推理模型k0-math。它是Kimi推出的首款推理能力增强模型,也是杨智霖技术思维的直观体现。在他看来,行业的下一个焦点是强化学习,技术范式将会发生变化。

k0-math模型采用强化学习和思维链推理技术,通过模拟人脑的思维和反射过程来提高解决数学问题的能力。在业内最常用的数学能力基准测试MATH中,k0-math第一代模型的表现优于o1-mini和o1-模型。

Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考__Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考

需要注意的是,虽然k0-math模型可以回答大多数困难的数学问题,但当前版本目前无法回答LaTeX格式(一种排版语言)难以描述的几何图形问题。仍有一些限制需要克服。例如,k0-数学模型可能会过度考虑过于简单的数学问题;高难题和IMO(国际数学奥林匹克)题都有一定的出错概率。未来的模型需要更好地泛化,然后才能用于更多学科。

Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考_Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考_

泛化是指模型应用于数据时准确预测或分类的能力。过去业界的共识是,Law(尺度法则)提供的理论框架可以帮助研究人员理解和预测模型在不同尺度下的泛化性能。然而,最近出现了“法律失效”的观点。在杨之琳看来,AI的关键词依然有“”,这也是支撑这几年AI技术进步的重要因素。这不仅仅是让模型变得更大,而是找到有效的扩展方法,例如更好的数据和方法。

目前,行业在杨志林看来已经发生了变化。 《月之暗面》的重点是基于强化学习进行扩展,而不是简单地预测下一个 token(文本中的最小单位)会是什么,因为后者有局限性——它仅基于静态数据集,无法探索更困难的任务,并添加强化学习的预测,在思维过程中生成更多数据。

《月之暗面》选择的测试场景是数学。在杨志林看来,数学是AI最适合锻炼思维能力的场景。因为在计算过程中,模型需要不断的试错。如果计算错误,可以回去验证、校对、重新计算。这也是o1模型的核心点。杨志林表示,o1最初是从数学场景出发,严格自成一体,无需与外界交互。此次发布的数学模型k0-math有两个层面的价值:一是其在教育场景中的应用,二是公司技术迭代和验证的实现。

在明确强化学习和AI思维能力方向之前,《月之暗面》也进行了战略调整。杨志林表示,公司最初尝试将几种产品一起做。这种方法在一定时期内是有效的,但最终发现还是需要专注于把产品做到最好。月之暗面认为,最重要的是。所以今年3月份左右,公司决定把重点放在Kimi上。 “如果我们把这三项业务一起做,做成一家大公司,那我就没有任何优势了。”杨之琳说道。

此外,杨志林表示,公司也会根据美国市场的情况来判断哪些业务最终能够做大。比如目前月活跃用户超过5亿,可以算是半个超级应用了。超级APP的路径已经得到很大程度的验证。但也有这样的情况,像.ai这样的产品一开始拥有大量用户,但后期却很难冲出圈子。因此,杨志林告诉第一财经记者,他会观察美国市场和产品,但这并不是唯一标准。他也会根据自己的观察来判断最高限额,并用这种方法来控制生意和人数。

对于目前行业内密集发布的多式联运产品,杨志林表示,公司有几项多式联运能力正处于内测阶段。多模态最重要的是思考和交互,而思考远比交互更重要。 “思维决定上限,交互是必要条件;多模态是必要的,但思维决定其上限。”杨之琳说道。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2