从肖扎最近的“自信”言论来看,这并非空穴来风:
到 2025 年,我们 meta 以及从事该领域工作的其他公司可能会开发出一种可以充当中级工程师并具有编写代码能力的人工智能。
他甚至提出了一个“终极想法”——meta的大部分代码编写和AI系统的开发将由“人工智能”工程师完成,而不是“人类”工程师!
在小扎看来,未来的人类将从重复性的工作中解放出来,探索更多的可能性,拥有更强的创造力。

元软件工程师的薪资范围从 E3 级别的每年 184,000 美元到 E9 级别的每年 325.1 万美元不等。其中,中级软件工程师的年薪约为50万美元。
事实上,从2024年底开始,科技圈就开始充斥着这样雄心勃勃的“预言”。
各大厂商的研究人员和高管开始热切地讨论超级智能系统的到来,仿佛一场智能革命即将席卷而来。

该公司老板马克甚至大胆宣称公司今年将停止招聘软件工程师。

马斯克:超级人工智能将于2030年问世
去年12月,马斯克在推文中表示:“人工智能将在2025年底超越全人类的智力水平,到2027-2028年,它将超越全人类的个体智力。”
“到 2030 年,人工智能几乎肯定会超过所有人类的智力总和(概率接近 100%)。”
奥特曼:2025年AI将全面进入就业市场
同样,CEO奥特曼今年1月也在博客中表示,他已经掌握了传统意义上构建AGI的方法。
他认为,到2025年,我们可能会看到人工智能代理首次“加入劳动力市场”,并大幅改变企业的产出。
达里奥:AGI预计在2025-2027年实现
去年6月,首席执行官达里奥表示,他相信在未来1-3年内“非常有可能”实现AGI。

如何解读AI圈的“未来宣言”?
正如宾夕法尼亚大学教授伊森指出的那样,业内人士的这些大胆预测有一个明显的目的——他们正在筹集资金,提高股票估值,或许还让自己相信他们正在创造历史。

大模型本身在稳定性方面也存在固有缺陷:它在某些任务上表现良好,但在看似更简单的任务上却失败了。这种“能力参差不齐”是当前AI系统的核心特征,短期内很难从根本上改善。
然而,简单地将这些预测归类为炒作是不明智的。
无论目的是什么,人工智能实验室的研究人员和工程师似乎真诚地相信他们正在见证前所未有的突破。
仅凭他们的确定性可能并不能令人信服,但越来越多的公共基准和示威开始揭示他们为什么这么想。
就好像潮水上涨的速度超乎你的想象。

潮水正在上涨
12月下旬,全球最强大的“推理模型”——o3发布。它在一系列测试中所表现出的惊人进步可以说完全超出了我们对AI技术水平的预期。
其中,三个基准尤其值得关注:
1. GPQA:连都答不出来的博士级别测试。
在测试中,能上网的博士在其专业领域内的得分为 81%,但在其专业领域外的得分则下降至 34%。相比之下,o3 的整体准确率高达 87%,首次超越人类专家。

2. 数学:数学家创造的非公开数学问题。
这个测试难度极大。此前还没有AI能够获得超过2%的分数,但o3的正确率达到了25%。
3. ARC-AGI,一种代理测试,其问题对人类来说相对容易,但对人工智能来说却很难。
在这里,o3 再次击败了之前所有的人工智能和人类基准测试,得分为 87.5%。
虽然这些测试有局限性,但它们表明我们之前认为人工智能无法逾越的门槛实际上可能很快就会被突破。

人工智能代理
随着人工智能变得更加聪明,它们将成为更高效的人工智能代理。
Agent是另一个定义模糊的术语,通常指能够独立实现一系列目标能力的AI。
之前的文章已经展示了一些早期的代理系统,过去几周的发展向我们证明,实用的人工智能代理已经变得可行,至少在一些利基但经济重要的领域。
一个典型的例子是谷歌及其 Deep 功能——一个专注于研究的定制人工智能代理。

例如,我们要求它“从创始人的角度研究和比较高成长初创企业的各种融资方式”。特工立即制定计划,查阅了多达173个网站。
几分钟后,一份完整的分析报告就会出炉!它包含 118 条参考文献,共 17 页。

那么,质量如何呢?
作为一名在沃顿商学院教授创业入门课程十多年的老师,伊森在该领域发表过文章,创办了自己的公司,并撰写了有关创业的书籍。
他认为这份报告相当扎实,没有发现任何明显错误。有兴趣的读者可以查看原文进行验证。
此外,教授还指出,目前AI代理的最大限制不是准确性,而是只能访问公共非付费网站,无法获取学术或付费出版物的内容。而且,其分析有些肤浅,在相互矛盾的证据面前缺乏强有力的论证。
综上所述,虽然不如人类最好的专家,但也超出了他见过的很多报告的水平。

Deep项目负责人透露,这只是一个小团队的试点项目。因此,可以推测,意愿和规模更大的团队和公司可以取得类似的结果。
如今,特定领域的人工智能代理已成为实际产品,不再是遥远的想法。

这就提出了一个问题:通用人工智能代理很快就会出现吗?用户只需要提出问题,这些通用人工智能代理就可以通过计算机和互联网完成任务。
随着时间的推移,答案迟早会揭晓。
一旦通用智能体系统能够可靠、安全地运行,将会带来巨大的变化,因为人工智能智能体将真正在现实世界中发挥作用。
“小进步”仍在继续
代理和超级智能是实现革命性人工智能所需的核心要素,但还有许多其他领域正在快速发展。这包括人工智能内存容量(上下文窗口)的改进以及赋予它们视觉和语音功能的多模式技术。
回顾过去的发展历史,我们可以清晰地看到这一进步。
例如,自发布之前,Ethan 一直使用提示短语“水獭在飞机上使用 wifi”来测试图像和视频模型。
在2023年10月,这个提示词只能生成令人毛骨悚然的怪物图像。而仅仅18个月后,多个图像制作工具就能够完美处理这个提示词。
根据教授的测试,最新的 Veo 2可以在不到15分钟的时间内生成一个30秒的视频。 (当然等待视频渲染完成需要一些时间)
正如您所看到的,图片中的阴影和光线质量以及水獭打开笔记本电脑的细节都非常精彩。


