11 月份 k0-math 发布时,杨之琳提到强化学习 23 次,推理 17 次,o1 7 次。
文丨王雨桐
编辑丨程曼琪
在经历了本月初的仲裁风波后,月之暗面于11月16日发布了新的数学模型k0-math。当时,月之暗面创始人杨志林多次提到“o1”:他对比了k0的评估分数-math 与 o1 相比,其思想与 o1 类似——都采用了强化学习和思维链技术。
o1是今年9月发布的新模型,推理和数学能力更强。杨志林在o1发布后不久的演讲中表示,o1的出现意味着大模型的范式转变:从预测下一个代币(Next-Token)的规模扩张到强化学习()的规模扩张。
我们独家获悉,在探索新的技术变革的同时,月之暗面最近引进了一位新的技术领军人物——前华为诺亚方舟实验室AI基础理论团队研究员刘正英。他正在带领团队探索月球暗面的o1方向。
据了解,刘正英也曾受到字节跳动高管邀请加入字节大模特团队,但他选择加入一家初创公司。
刘正英毕业于北京大学元培学院物理与数学双专业,后获得巴黎萨克雷大学(éParis-)博士学位,研究方向为(自动化深度学习)。
AI for Math是刘正英深入研究的方向之一。除了发表几篇相关论文外,他在 2023 年的几场公开演讲都将以人工智能数学为主题。
据了解,k0-math数学模型早在半年前就已成型,当时内部代号为“胖胖”。今年年初的月之暗面股东大会上,杨智霖将“多阶段推理”纳入年度计划。 k0-math代表了Dark Side of the Moon在多阶段推理能力方面的努力。
与o1相关的另一个成果是,今年10月初,月之暗面推出了Kimi探索版,可以实现多步思考和更深入的检索。
自成立以来,月之暗面一直被视为中国技术人才密度较高的大型模型创业公司之一。月之暗面仍然只有100多人,但却汇聚了杨智霖和周新宇两位技术出身的创始人。杨智霖在语言模型领域发表了两篇重要论文[1],周新宇在旷视时期加入了另一家大公司。建模独角兽踏星的张翔宇发表了一篇卷积神经网络论文,被引用超过 9000 次[2]。
今年至今,月之暗面已陆续聘请了在建筑领域发表多篇论文的苏建林、前微软亚洲研究院多模态专家谭旭等人。现在刘正英也加入了月之暗面。
我们了解到,这段时间,月之暗面的招聘重点仍然是算法人才。但另一方面,《月之暗面》对外发布的模型和算法却没有太大进展。在 k0-math 之前,他们最后一次发布模型更新是 2023 年底的 -v1 系列。
在之前的采访中,杨志霖就提到过要招收各个领域的(天才)。杨志林对天才的定义是:“天才不一定是天生的,也可以是通过训练获得的,重要的是是否有自觉的创新。”
创新仍然重要,人才仍然重要,算法和技术仍然重要,但随着大公司的投入,除了模型能力之外,产品相关的综合能力也成为现阶段重要的竞争因素:这包括设计优化、投放效率、留存转化和商业化策略等,以及支持上述行动链的资金和资源。后者是字节跳动等大公司多年来积累的实力。


