这次发布会似乎透露出这样一个趋势:当前大模型行业的竞争焦点不仅是模型参数和技术上限,更是用户体验和市场规模。两者都需要齐头并进才能保持领先。
在梳理了这12场会议的主要信息并与国内大型模型行业人士交流后,极客公园总结了以下要点。
01
o3的智能深度足够了。
但能否称为AGI取决于智能的广度。
“疯了,太疯了。”这是国内一位模特经理看到o3后的第一反应。
在数学、编码、博士级科学问答等复杂问题上,o3表现出了超越一些人类专家的水平。例如,在GPQA这一涉及生物、物理和化学的博士级科学考试中,o3的准确率达到了87.7%,而这些领域的博士专家只能达到70%;在美国AIME数学竞赛中,o3取得了96.7分,只有一题错,相当于顶级数学家的水平。
人们广泛讨论的是它的编码能力。在全球最大的算法训练和竞赛平台上,o3获得了2727分,相比o1提升了800多分,相当于排名第175位的人类选手。甚至超过了研究高级副总裁陈马克(2500分)。

o1-、o1、o3编码能力对比|图片来源:
自9月份推出o1-版本以来,短短三个月的时间,o1系列机型就完成了推理能力的超级进化。发布会首日推出的o1完整版,相比o1-,思维速度提升了约50%,对于现实生活中的疑难问题,重大错误减少了34%,还支持多模态输入(可识别)图像)。如今的o3在复杂问题上已经超越了一些人类专家的水平。

”从o1到o3,通过增加推理计算量来提高模型的能力。随着国内外R1和2.0 Flash的发布,表明大型模型开始从预训练法转向推理法律。”清华大学副教授、面墙智能创始人刘志远告诉极客公园。
自o1-发布以来,大模型浪潮的技术范式从最初的不断扩大模型训练参数、提高智能上限的预训练法(缩放法),转向了新一轮升级的技术范式,即在推理阶段注入强化学习,提高复杂推理能力。
前一种范式下,模型主要通过next token(下一个词预测)给出答案,更倾向于“快速思维”。就像“读万卷书”,但“学而不思则罔”,无法完成数学、编程等更复杂的推理任务。
在后一种范式下,模型不会立即给出答案,而是会“慢慢思考”,首先引入CoT(思维链),规划复杂的问题并将其分解为更简单的步骤,最后得到结果。当该方法不起作用时,它会尝试另一种方法来提高强化学习中的复杂推理能力——随着模型不断进行“慢思考”和强化学习,其推理能力将呈指数级增长。这就是推理。法律。
对于o3超越人类专家的卓越研究和推理能力——在刘志远看来,这表明o3正在向“超智能超级计算机”迈进。
不少业内人士认为,这将对尖端科学领域产生深远影响。从积极的角度来看,o3强大的研究推理能力有助于推动数学、物理、生物、化学等学科的基础科学研究。不过,也有人担心这会影响科研人员的工作。
o3此次带来的令人惊叹的智能深度,似乎让人们看到了AGI的曙光。但在刘志远看来,正如信息革命的标志不是大型计算机而是个人计算机(PC)的普及一样,AGI只有让每个人都拥有自己的大型模型并解决日常问题才能得到普及和受益。问题意味着真正的智能革命。
“毕竟,我们不需要特伦斯·特鲁这两位顶尖科学家来为我们解决日常问题,”他说。
这背后的关键问题是o3模型的智能深度是否可以推广到其他各个领域并具有足够的智能广度。在上述技术人士看来,只有同时突破智能的深度和广度,才能称为AGI。他对此感到乐观:“就像一个转学生来到你们班,你和他没有任何接触,但他的数学和编程在班上排名第一。你认为他的语文和英语会很差吗?” ?”
对于国内大型模型公司来说,核心问题是如何追赶o3。从训练架构、数据、训练方法、评估数据集等关键要素来看,这似乎是一个工程可以解决的问题。
“你认为我们距离 O3 级别的开源模型还有多远?”

“一年后。”上述车型负责人回应道。
02
模型只是引擎;
关键是要帮助开发者使用
虽然o3的模型能力很强,但在一些应用层人士看来,模型和实际应用之间还有很长的路要走。 “我今天培养了爱因斯坦,但如果你想成为上市公司的首席科学家,还有一段距离。”蓝马科技创始人兼CEO周健告诉极客公园。
作为大模型的中间层,蓝马科技是国内最早探索大模型应用、打造AI Agent的公司之一。在周健看来,大模型只是一个基础设施,需要结合所使用的场景进行大量的工作。目前主要的制约因素是数据。
在很多场景下,获取完整的数据是很困难的,很多数据甚至没有数字化。例如,猎头可能需要简历数据,但很多简历数据还没有被数字化。
成本是影响o系列模型实施的最关键因素。根据ARC-AGI测试标准,o3-low(低计算模式)每个任务花费20美元,o3-high(高计算模式)每个任务花费数千美元——即使你问最简单的问题,就要花费近2万元。收益和成本根本无法平衡,o3落地可能需要很长时间。

o系列机型成本估算|图片来源:ARC-AGI测试标准
在帮助模型应用落地方面,发布会上也发布了相应的功能解决方案。比如,第二天,专门针对开发者发布了AI微调(AI Fine-)功能,这是周健最关心的功能。意味着模型可以通过少量的数据来优化推理能力,提高性能。

对于精细化领域的应用尤其如此。技术专家表示,它可以帮助任何需要人工智能模型深厚专业知识的领域,例如法律、金融、工程和保险。一个例子是汤森路透最近使用增强型微调对 o1-mini 进行了微调,并获得了一个有用的 AI 法律助理来帮助他们的法律专业人员完成一些“最具分析性的工作流程”。
例如,第九天,o1模型终于向开发者开放。支持函数调用和可视化功能;引入它来实现实时语音应用程序开发;推出偏好微调功能,帮助开发者定制模型;发布了Go和Java SDK,方便开发者快速上手集成。
同时带来了成本更低、质量更高的4o语音模型。其中,4o音频价格降低60%至40美元/百万输入和80美元/百万输出,缓存音频价格降低87.5%至2.50美元/百万;对于预算有限的开发者来说,GPT-4o mini,音频成本仅为 4o 的四分之一。
这个新功能也是周健所关心的。他认为,更新后的实时语音、视觉识别等功能将更好地应用于营销、电话客服、外呼等场景。根据他的经验,某些领先技术推出后,国内通常需要6-12个月的时间才能赶上。这让他对新的一年的应用业务充满信心。
03
Sora的视频生成量低于预期,
但产品开放将提升其物理模拟能力
年初Sora的demo发布时,引起了全球科技圈的震动。但一整年,国内各大模特公司都在争夺文森视频赛道——当《Sora》在发布会第三天正式发布时,国内文森视频企业才松了一口气。
“基本上没有什么超出预期的地方,真实度、物理属性等方面与2月份发布相比没有明显变化,从基础模型能力来看,低于预期。”圣数科技联合创始人兼CEO唐家宇告诉极客公园。
目前,字节、快手、智浦、胜数、爱视等公司都推出了自己的文胜视频产品。 “Sora的整体效果和实力并没有明显的领先优势。我们看到我们仍然在跟上它的步伐。”唐家瑜说道。
在他看来,Sora稍微亮眼的地方在于,除了基本的文声视频、图声视频之外,还提供了一些编辑功能,提升视频创作体验,这说明它确实更加注重产品体验。

例如,故事板功能相当于将一个故事(视频)按照时间线切割成多个不同的故事卡(视频帧)。用户只需要设计和调整每一个故事卡(视频帧),Sora就会自动将它们完成为一个流畅的故事(视频)——这很像电影和动画手稿中的故事板。当导演画出故事板,漫画家写出原稿,动画或电影就准备好了。它可以让创作者更好地表达自己。
此外,还推出了直接用文字修改视频、无缝合并两个不同视频、改变视频风格等功能。它们相当于直接给视频添加“特效”。但一般文森特视频产品无法直接修改原始视频,只能不断调整(提示词)并生成新视频。

Sora 的故事板功能 |图片来源:
在唐家瑜看来,这些功能性设计确实是为了给创作者更大的创作自由度。类似的功能已经在Vidu(圣数科技旗下文盛视频产品)的迭代计划中。 “我们实现Sora的这些功能并不困难,实现路径也已经很清晰了。”他说。
发布会上,Sam解释了制作Sora的原因:一是工具价值,为创作者提供创作工具;第二,交互价值,大模型不仅要通过文字交互,还要拓展多模态;第三,最后重要的一点——它与AGI技术愿景是一致的。索拉正在更多地了解世界的法则,并可能最终建立一个理解物理法则的“世界模型”。
在唐家宇看来,Sora生成的视频中仍然有很多明显违反物理定律的地方,与2月份的演示相比并没有太大进展。在他看来,Sora发布后,会有更多人尝试和探索其物理模拟功能。这些测试样本可能对其物理模拟的改进起到指导作用。
04
内置功能和外部生态,
可以变成超级App吗?
除了o系列机型、Sora、开发者服务之外,发布会的主要动作是在产品端继续增加新功能,优化用户体验。另一方面,正积极推动与苹果等公司的深度合作,探索AI与终端设备和操作系统的融合。

从前者我们可以看出,进化的方向似乎是成为“无所不能、无所不在、人人可用”的超级AI助手。据极客公园介绍,最初的愿景是创建一个“全能”Agent,能够理解人类指令,自动调用不同工具,满足人类需求。结束,似乎就是开始。
例如,第六天添加了支持屏幕共享的视频通话和圣诞老人语音模式。前者允许用户与AI进行实时视频通话,共享屏幕或显示周围环境,并进行多模态交互,重现电影《她》中的场景。
例如,第八天,它的搜索功能向所有用户开放。除了基本搜索外,还增加了语音搜索;同时集成了移动设备上的地图服务,可以调用苹果、谷歌地图显示搜索结果列表;它还与多家顶级新闻和数据提供商建立了合作伙伴关系,允许用户查看股票行情、体育比分、天气预报和其他信息。
再比如,第十一天宣布扩大了与桌面软件的集成。可以接入更多编码应用,如、、、Nova等;可与Warp(文件共享应用程序)、XCode编辑器等应用程序配合使用;它还可以在语音模式下与其他应用程序配合使用,包括Apple Notes等;
现场演示包括用户在 Apple Notes 中设置“假日派对播放列表”并通过语音询问对候选歌曲的意见的示例。可以指出用户错误,例如将圣诞歌曲“the”误写为“the”。

Apple Notes bug 指出图片来源:
“它将从一个简单的对话助手转变为一个更强大的代理工具。”首席产品官凯文·韦尔说道。
另一方面,它也在积极拓展生态系统,通过融入人们最常用的终端设备、操作系统、上层软件等,覆盖更广泛的人群。
例如,第五天宣布将整合苹果智能生态系统,融入iOS、MacOS和iOS,支持用户跨平台、跨应用调用AI能力,包括Siri交互、书写工具(Tools)、可视化等。通过此次合作,已触达全球数十亿苹果用户。也开创了大机型、终端、操作系统之间合作的先例。


