量子比特 |公众号
kimi全面开业一周年之际,创始人杨智霖亲自发布了全新车型——
数学模型k0-math基于o1系列,注重深度思考。
在MATH、中考、高考、考研四项数学基准测试中,k0-数学成绩超过了o1-mini和o1-。

在demo展示中,充分展示了k0-数学思维过程,解决问题的过程可能会很长。
它会在不断尝试各种想法的同时对自己说“我被困住了”。
以下面这道AIME竞赛题为例,k0-math通过不断的摸索和试错,尝试了八九次后终于得到了正确的结果。

杨智霖现场直言,有时候自己会反复思考很简单的问题。
例如,遇到简单的“1+1等于多少”时,需要“先形象化”、“再检查一遍”、“用数学方法确认”、“用另一种方法验证”,最后是“有信心“满”得到最终答案1+1=2:

另一个例子是4046/476 等于多少。其实一开始就得到了答案,但经过反思和一系列验证,得出的结论是等于8.5:

在杨之琳看来,这既是机遇,也是限制。预计在下一阶段的模型迭代中,这个问题会逐渐得到改善,让模型知道什么时候需要深入思考。

k0-math的发布也体现了Dark Side of the Moon当前的重点——基于强化学习提升模型的深度思维能力和规律。
杨志林表示,近期,Kimi探索版还利用强化学习技术创新搜索体验,提升意图增强、源头分析和连锁思维三大推理能力。
k0-math模型和更强的Kimi探索版将在未来几周内分批推出。 Kimi网页版和Kimi智能助手APP将分批上线。
除了新品之外,杨智霖还回答了大家感兴趣的很多问题,包括下一步的研发重点、对多模态的看法、预训练状况等。
Kimi探索版推理能力提升

Kimi探索版改进的意图增强能力意味着它可以具体化抽象问题和模糊概念,扩展用户的真实搜索意图。
例如,当互联网产品经理调查某个产品的用户忠诚度时,Kimi探索版会认为用户搜索“忠诚度”时,本质上是想对数据进行分析,然后找到能够体现忠诚度的维度,从而使得这个比较模糊。并将概念抽象为更具体的关键词,如“活跃度、留存率、使用频率、使用时长”等。
然后通过机器更擅长的大规模并行搜索找到更全面、更准确的答案。

Kimi 的源码分析功能也得到了改进。它将从大量的搜索源结果中分析筛选出更权威、更可靠的来源。
现在答案中提供了可追溯性链接。您可以一键定位信息的具体来源,精确到段落级别,让每一条信息都有据可查。

最后,链条思维能力的提升意味着Kimi探索版可以基于思维链推理能力更好地处理产品、公司、行业等研究问题。
例如,程序员在进行技术选型时,想知道“React中有哪些状态管理库,哪些最好用?”
Kimi先拆解问题,看看React有哪些状态管理库。然后他会搜索各个状态管理库的优缺点、使用场景以及推荐理由。最后,他会分析总结所有找到的优质信息,推荐最适合大多数人的信息。用于情况和理由的状态管理库。
“思维决定模型的上限”
Q:强化学习过程中如何解决数据、算力和算法的平衡问题?
A:我认为人工智能的发展是一个摇摆的过程,你会在两种状态之间来回切换。
一种状态是算法和数据都已经准备好了,但是算力还不够。所以你要做的就是做更多的项目,把基础设施做得更好,这样它才能不断改进。
我觉得其实从GPT-4的诞生开始,更多的矛盾就是如何扩容,但是算法和数据上可能并没有什么本质的问题。
今天当Scale差不多的时候,你会发现如果我增加更多的计算能力,可能并不能直接解决这个问题。核心原因是你没有高质量的数据。小至数十GB的代币由人类互联网累积20多年上限。
这个时候需要做的就是改变算法,让这个东西不成为瓶颈。现在可以理解为我们遇到的问题或者整个行业遇到的问题。可能如果你直接加更多的卡,可能看不到直接的提升,所以你必须通过这种方式去改变,才能发布这个东西。 。
所有好的算法都是朋友。如果你的算法能够释放其潜力,它将会继续变得更好。
我们很长时间以来一直在做强化学习相关的事情。我觉得这也是未来一个非常重要的趋势。通过这种方式,你可以改变你的目标函数和你的学习方法,使其能够继续扩展。
问:Fei会解决这个问题吗?

A:不是,因为它本身就是一个学习算法或者是一个没有学习目标的问题。
Q:如果你的产品在一两周后投入Kimi探索版,用户会选择使用它,还是会根据用户的问题来决定是否使用这个模式?不同模式下,每个用户在一段时间内可以使用多少次?而目前Kimi的主要收入来自打赏,而非付费订阅。如何平衡成本问题?
答:我们的下一个版本很可能会允许用户做出自己的选择。
在早期,这种方式可以更好地分发或者更好地满足用户的期望。我们不想长时间思考1+1等于什么。
所以我觉得前期可能会采用这样的解决方案。
但我认为这最终可能是一个技术问题。两点、一点可以动态为其分配最优算力。如果模型足够聪明,它应该知道需要多长时间来思考什么样的问题,就像人一样,它不会在1+1中思考半天。
我们现在在一定程度上观察到,简单问题的思考时间会更短,但可能不是最优的。这是我们可以通过算法迭代来改进的。
从长远来看,我认为第二点是成本也在下降。比如今年如果达到去年GPT-4模型的水平,可能只需要十几B的参数,而去年可能需要一百多个B。
Q:现在你的预训练情况怎么样?你专注于法律。我很好奇像你这样聪明的人会受到法律的限制吗?
答:我先谈谈第一个问题。我觉得预训练还有空间,半代到一代的模型。该空间将于明年发布。明年,我认为领先的模型会将预训练带到一个相对极端的阶段。例如,今天我们来看看最好的模型,它可能有这样的空间可以挤压。
但我们判断接下来最重要的事情将会是在强化学习方面,即范式会有一些变化。但它仍然,并不是它不使用Scale,它只是意味着你会以不同的方式去Scale,这是我们的判断。
您认为法律会是上限还是上限?我对此比较乐观。
核心是你习惯用静态数据集。静态数据集实际上是一种相对简单粗暴的使用方式。现在使用强化学习的时候,很多情况下是人参与这个过程,但是人无法给你标注那么多数据。不可能为每个问题标出具体的想法,所以你实际上使用人工智能本身来为人类的事物添加一个杠杆。
比如你标记了100条数据,它的作用就会非常大,因为它会自己去思考剩下的部分。我想更多的人会用这个方法来解决问题。
具体从实际来看,我认为确定性是比较高的。很多时候都是实际去调整的过程,所以我现在觉得这样的可能性很大,所以我觉得它的上限是非常高的。的。
问:我想问一个关于多模态的问题。索拉可能很快就会发布它。
答:我们也在做一些多模态能力的内部测试。
我是这样看的。我认为人工智能的下一个最重要的事情是思考和交互的能力。思考远比互动重要。这并不是说互动不重要。我认为思维决定上限。我认为互动是一个必要条件,比如能力。如果没有能力,就无法互动。
所以我认为两者并不相同。这取决于完成这个标记任务的难度。是需要医生来标记,还是每个人都可以标记?哪一个比较难找到这样的人呢?那东西就是AI的上限。
所以我觉得多模态肯定是有必要的,但是我觉得是思维决定了它的上限。


