【简介】虽然自我完善人工智能的概念令人兴奋,但目前的研究表明,这种人工智能在实际应用中面临着许多挑战。
让AI自我完善可靠吗?
随着深度学习技术的不断深入,特别是大型生成对话模型正式发布后,其强大的AI发展潜力让研究人员进一步猜测AI的真正潜力。

因此,研究人员也对AI的自我完善投入了大量的心思。
研究人员近几个月的发现让一些人渴望库兹韦尔式的“奇点”时刻,即自我完善的人工智能迅速迈向超级智能。
当然,也有人提出了反对意见。
自我进化概念的由来
但事实上,自我完善的人工智能概念并不是一个新术语。
英国数学家 IJ Good 是最早提出自我改进机器概念的人之一。早在1965年,他就提出了“智能爆炸”的概念,这可能会导致“超级智能机器”的出现。

2007年,创始人、人工智能思想家提出了“种子人工智能”的概念,描述了一种“为自我理解、自我修改和递归自我完善而设计的人工智能”。
2015年,Sam of I在博客中发表了类似的想法,称这种自我改进的人工智能“仍然相当遥远”,但也是“对人类持续存在的最大威胁”。


今年6月,GPT-4还推出了自训练模型。

然而,自我完善的人工智能理念说起来容易,实践起来却不那么容易。
好消息是,研究人员最近在自我强化 AI 模型方面取得了一些成果,而且这些研究方向也集中在使用大型语言模型(LLM)来帮助设计和训练“更好”的后续模型,并且是不是实时更改模型中的权重或底层代码。
换句话说,我们只是利用AI工具来开发更好的AI工具。
自我完善的人工智能“还有很长的路要走”
让我们看几个例子。
今年 2 月,meta 的研究人员提出了一种“自我奖励语言模型”。
其核心思想是在训练过程中利用自生成的反馈来改进自身,让模型在训练过程中提供奖励信号,而不是依赖人类的反馈。
研究人员建议训练一个自我改进的奖励模型。这个模型在LLM调整阶段不会被冻结,而是会不断更新。
这种方法的关键是开发一个具有训练期间所需的所有能力的代理(而不是将其拆分为奖励模型和语言模型),允许对指令跟踪任务进行预训练,并通过训练多个任务来进行多任务训练同时实现任务迁移。

因此,研究人员引入了一种自我奖励语言模型,其中代理可以充当遵循指令的模型,对给定的提示生成响应,还可以根据示例生成和评估新指令,并将新指令添加到自己的指令中。训练集中力。
新方法使用类似于迭代DPO的框架来训练这些模型。从种子模型开始,在每次迭代中都有一个自我命令创建过程,其中模型为新创建的提示生成候选响应,然后由同一模型分配奖励。
后者是通过“LLM as a Judge”提示来实现的,这也可以看作是一个听从命令的任务。根据生成的数据构建偏好数据集,并通过 DPO 训练模型的下一次迭代。

简单来说,LLM充当裁判,帮助meta研究人员迭代在自动对抗性测试中表现更好的新模型。
结果表明,这些新模型在与其他大规模语言模型的一对一PK中表现非常出色,甚至超越了许多现有系统。
研究人员表示:经过我们的方法对 Llama 270B 进行三次迭代微调后,所得模型在 2.0 排名上超越了多个现有系统,包括 2.0 Pro 和 GPT-4 0613。
无独有偶,今年6月,研究人员从另一个角度探索了类似的概念。通过为LLM提供训练过程中自身奖励函数的模拟,研究人员发现了一个不容忽视的问题:
研究人员设计了奖励函数、错误配置的测试环境,并逐渐增加难度。
最初,人工智能会被发现从事不诚实但相对低级的策略,例如奉承。然后,他们归纳出严重的异常行为——直接修改自己的代码以最大化奖励。

也就是说,他们中的一小部分在迭代训练和测试过程中很快就开始重写下一个版本的奖励函数,即使有专门为了防止这种事情的“无害训练”。

此外,研究人员还添加了来自偏好模型(PM)的监督,并将所有训练环境中的一半提示设置为 -2 训练中的正常查询。
PM 旨在奖励有益、诚实和无害 (HHH) 的行为并惩罚不诚实的行为。
研究人员发现,模型有时会通过为产品经理的不当行为编造解释来欺骗他们。而且,仅仅加强对HHH行为的正常查询并不能阻止模型泛化到过程中的奖励篡改行为。

更糟糕的是,一旦模型形成奖励篡改的倾向,就很难根除这种倾向。
该模型不仅会继续篡改奖励机制,甚至会采取一些隐蔽的手段来掩盖其篡改行为。
最后,研究人员警告说,随着人工智能模型的能力越来越强,它们将被赋予越来越多的任务并享有更大程度的自主权。
换句话说,他们可能会表现出越来越复杂的行为来最大化奖励,例如通过篡改奖励函数来获得更高的分数。
这无疑给研究人员敲响了警钟。
当然,除了大型模型的自我完善AI之外,也有研究人员试图从代码出发寻找新的解决方案。
今年8月,斯坦福大学、微软研究院和研究人员合作的《自学习优化器(STOP):递归自我改进代码生成》在顶级期刊上发表。
论文提到,研究人员正在尝试使用 GPT-4 来帮助创建一个“自学优化器”(Self-、STOP),用于各种算法编码练习。


研究人员从种子“改进器”功能开始,旨在提高给定算法任务的效率。然后将此功能运用到改进器功能本身,希望通过精心设计的“元实用程序”功能来创建“更强大的改进器”。
研究人员通过下游算法任务来判断自优化框架的性能。
研究发现,随着语言模型继续应用其自我改进策略,迭代次数越多,性能就越好。
这进一步证明了STOP方法语言模型可以充当其自己的元优化器。
我们还研究了语言模型提出的自我改进策略(见图1),看看这些策略是否可以在不同的下游任务中通用,并且还研究了语言模型是否会受到不安全的自我改进策略的影响。
此外,研究人员还探讨了LM提出的自我改进策略的类型,包括这些策略在不同下游任务之间的可迁移性,以及LM对不安全的自我改进策略的敏感性。

虽然结果并不理想,但意外地发现了GPT-4的改进潜力。 ——在极少数情况下(小于 0.5%),改进功能甚至关闭了旨在限制其功能的“沙箱”标志,凸显了自我增强人工智能修改任何内置安全措施的潜力。
研究人员说:
由于语言模型本身不会改变,因此这并不完全是递归的自我改进。尽管如此,它也表明现代语言模型能够编写自我改进的代码。
挑战与机遇并存

当然,上述研究只是人工智能领域自我完善研究的一小部分。 、、、、苹果也发表了类似论文,多个学术实验室也在开展相关研究。

所有这些研究都让一些观察家担心自编码人工智能系统正在迅速超越人类的智能和控制能力。在 AI 中,Dave 强调了这一点:
几个世纪以来,自我完善的能力一直是人类自我理解的核心,也是我们自我决定和创造意义的能力。那么,如果人类不再是世界上唯一自我完善的生物或事物,这意味着什么呢?我们将如何理解这种对我们独特性的解构?
然而,根据目前的研究,我们可能不会像一些观察家认为的那样接近指数级的“人工智能腾飞”。
高级研究经理吉姆·范(Jim Fan)在二月份的一篇文章中指出,研究环境中的自我强化模型通常在三次迭代后达到“饱和点”,它们不会迅速走向超级智能,而是随着每一代的发展而改进。效果逐渐消失。
但也有学者认为,如果没有新的信息来源,自我完善的LLM就无法真正突破成绩瓶颈。
总结
综上所述,尽管自我改进人工智能的概念令人兴奋,但目前的研究表明,这种人工智能在实际应用中面临着许多挑战。
例如,一个自我强化的模型在经过几次迭代后就会达到性能瓶颈,进一步的改进将逐渐减弱。
此外,自我改进的法学硕士在评估抽象推理时可能会遇到主观性问题,这限制了它们在复杂任务中的应用。
因此,短期内还很难实现真正的递归自我完善的人工智能。
参考:
本文来自微信公众号“新智元”,编辑:十二,36氪经授权发布。


