也许是时候寻找新方法了?
大型模型对人类对话的反应涉及多少“智能”?
周五,人工智能领域知名学者、创始成员、特斯拉前人工智能高级总监发表观点:“人们对‘向人工智能提出要求’的解读过于夸张”,引发热议网友之间。

说:人工智能基本上是通过模仿人类标记数据训练的语言模型。因此,不要将对话视为“询问人工智能”神秘主义,而应更多地视为“询问互联网上的普通数据标记者”。
例如,当您提出“阿姆斯特丹十大景点”之类的问题时,一些受雇的数据标记者可能在某个时候看到过类似的问题,并使用 等软件研究了 20 分钟,并列出了 10 个景点的列表。列出来,然后字面意思变成正确答案,训练人工智能给出问题的答案。如果问题的确切位置不在微调的训练集中,神经网络会根据预训练阶段(互联网文档的语言建模)获得的知识进行估计。
当有网友评论:“RLHF 可以创造超越人类的结果”时,他说道:“RLHF 仍然是来自人类反馈的 RL,所以我不会这么说。”

认为RLHF将模型性能从SFT的“人工生成”水平提高到“人工判别”水平。但这与其说是“原则上”,不如说是“实践中”,因为“判断”对于普通人来说比“生成”更容易(例如判断这5首关于X的诗中哪一首最好,而不是写一首诗)关于X)。
另外,从群体智能效应上还可以得到单独的提升,即LLM的表现达到的不是人类水平,而是人类整体水平。因此,原则上,RLHF 最好的希望就是达到专家水平。

所以从某种意义上来说,这算是“超人”,但我认为:按照人们默认的方式成为真正的“超人”,你必须去RL而不是RLHF。
事实上,这并不是RLHF第一次受到批评。作为前重要成员,今年8月,他与Yann LeCun等人一起质疑GPT系列模型开发的RLHF强化学习的意义。

“RLHF 只是强化学习。”
他当时用它作为例子。如果我们使用 RLHF 方法来训练会是什么样子?它可能无法构成有效的奖励,还可能导致优化偏离正常轨道。那么就注定不可能创造“击败人类世界冠军”的历史。
出于同样的原因,我对RLHF适用于LLM感到“有点惊讶”。因为我们为 LLM 训练的 RM(模型)只是以完全相同的方式进行肠道检查。它会给人类注释者可能喜欢的判断打高分,而且它不是正确解决问题的“实际”目标,而是人类认为好的替代目标。

其次,你甚至不能运行 RLHF 太久,因为你的模型会很快学会适应游戏奖励模型并推断出一些异常代币。这对人类来说看起来很荒谬,但出于某种原因 RM 认为它看起来很棒。
无独有偶,今年 9 月,VRAIN 和剑桥大学的研究人员发表的一篇论文对 o1- 等模型进行了评估,发现人类的许多简单任务无法通过大型模型来解决。在一些复杂的任务上,LLM根本不知道如何“回避”,而是假装思考后会给出错误的答案。
虽然随着时间的推移,大型模型的参数越来越大,使用的训练数据越来越多,性能不断提高,但从基本机制来看,它们似乎并不可靠。
如果RLHF不起作用,什么样的奖励机制可以帮助大型模型“准确地遵循指令”?
今年 7 月,宣布了一种教导 AI 模型遵守安全策略的新方法,称为基于规则的奖励(RBR)。 RBR 不仅限于安全培训,它们还可以适应各种任务,其中明确的规则可以定义所需的行为,例如根据特定应用定制模型响应的个性或格式。这或许为大型模型下一步的性能突破提供新思路。
参考内容:


