揭秘AI对话背后的本质:从数据标注员到AGI的进化之路

   日期:2024-12-01     来源:网络整理    作者:二手钢材网    浏览:362    评论:0    
核心提示:Karpathy:你以为你在和AI聊天,但其实是在和「人」聊天LeCun居然一反常态地说,AGI离我们只有5到10年了。Law并不像我们想得那么有预测性Law进行预测,并不像有些人想的那么简单。没人知道下一代模型的强大程度Law并不像许多人声称的那样简单:

这就是为什么,只有当AI代理变成AGI时,我们才能安全地将任务交给AGI。

聪明人骗傻子的放事_人傻钱多还好骗_

:你以为你在和AI聊天,其实你是在和“人类”聊天

而且,为什么人类可以通过语言控制轻松引导AI的行动呢?

这就引出了一个问题:当我们与人工智能聊天时,幕后到底发生了什么?

近日,一位人工智能专家在长文中揭示了人工智能对话背后的本质。

目前大家对“向AI提问”的理解过于理想化。所谓AI本质上是模仿人类数据标注者的数据训练出来的语言模型。

与其神化“向人工智能提问”这一概念,不如将其理解为“向互联网上的普通数据标注者提问”。

当然也有一些例外。

例如,在很多专业领域(如编程、数学、创意写作等),公司都会聘请专业的数据标注员。在这种情况下,就相当于向这些领域的专家提问。

聪明人骗傻子的放事_人傻钱多还好骗_

然而,当谈到强化学习时,这个类比并不完全准确。

正如他之前抱怨的那样,RLHF只能算是强化学习,而“真正的强化学习”要么还不成熟,要么只能应用在容易设定奖励函数的领域(比如数学)。

但一般来说,至少目前,你问的不是一些神奇的人工智能,而是它背后的人类数据注释者——他们的集体知识和经验被压缩并转化为大型语言模型。令牌序列。

简而言之:你不是在问人工智能,而是在询问为其提供训练数据的注释者的集体智慧。

聪明人骗傻子的放事__人傻钱多还好骗

资料来源:法学硕士:观点

例如,当你问“阿姆斯特丹十大著名景点”这样的问题时,很可能数据标注者之前遇到过类似的问题,然后他们花了 20 分钟使用 或 (猫途鹰)来查看信息并编制一份景点清单。该列表将被视为“标准答案”,用于训练 AI 回答类似问题。

如果你询问微调训练数据中未出现的特定位置,AI 将根据其在预训练阶段学到的知识生成风格和内容相似的答案列表(即即通过分析大量互联网文档)。

人傻钱多还好骗_聪明人骗傻子的放事_

对此,有网友表示想不通:“按理说,数据标注者的任务是评估答案是否符合RLHF的规则,而不是自己去整理每个列表。”另外,LLM权重映射的不就是互联网数据中的相关信息“理想度假目的地”的高维数据空间吗?

_聪明人骗傻子的放事_人傻钱多还好骗

答案是:“这是因为地方太多了,所以数据注释者需要编制一些手动选择的列表,并通过示例和统计方法确定‘标准答案’的类型。”

聪明人骗傻子的放事_人傻钱多还好骗_

当被问到类似的问题但针对新的或不同的问题时,LLM 会匹配答案的形式,并从嵌入空间中的相似区域(例如具有正面评价的度假胜地)中提取新位置,并进行替换并生成答案以新地点为条件。

这种现象是一种非直观、经验性的发现,而这正是微调的“魔力”所在。

但事实仍然是,人类注释者只是通过他们在微调数据集中选择的地点类型的统计特征来“模式化”答案。

而且,LLM立即给你的答案大致相当于你直接向他们的注释团队提交问题后大约一个小时得到的结果。

_人傻钱多还好骗_聪明人骗傻子的放事

此外,在一些网友的概念中,RLHF可以创造出超越人类水平的成果。

人傻钱多还好骗_聪明人骗傻子的放事_

对此,他表示:“RLHF仍然是基于人类反馈的强化学习,因此不能直接归类为‘超人水平’。”

RLHF的性能提升主要体现在从SFT(监督微调)的“生成人类水平”到“评估人类水平”的提升。

这种差异在实践中比在理论上更大。因为对于普通人来说,判断比生成更容易(例如,从关于某个主题的5首诗中选择最好的一首比自己直接创作一首要容易得多)。

另外,RLHF的性能提升还得益于“群体智能效应”(of),即LLM的表现不是单个人类的水平,而是达到了人类群体整合的水平。

因此,RLHF理论上能达到的最高性能是该领域顶尖专家小组在足够时间的情况下选择的答案。从某种意义上来说,这也算是“超人水平”了。

然而,如果你想达到人们通常理解的“真正的超人水平”,你仍然需要从RLHF转向真正的强化学习。

人傻钱多还好骗__聪明人骗傻子的放事

那么问题来了,如果人工智能还无法达到“超人水平”,那么如何解释在医疗问答领域持续超越人类水平的表现呢?

这是否意味着模型制造商聘请了顶级医生来做标注?还是通过检索广泛的事实知识来弥补推理能力的不足?

聪明人骗傻子的放事_人傻钱多还好骗_

:“你别告诉我,他们真的只是请了专业医生来贴标签。”

当然,并不是所有可能的问题都需要注释。它只需要足以让法学硕士学会以专业医生的方式回答医学问题。

对于新问题,LLM可以在一定程度上迁移和应用其从互联网上的文献、论文等中获得的一般医学知识。

众所周知,著名数学家陶哲轩曾为LLM提供过一些训练数据作为参考。但这并不意味着LLM现在在所有数学问题上都能达到他的水平,因为底层模型可能不具备相应的知识深度和推理能力。然而,这确实意味着LLM的答案质量明显优于普通互联网用户。

因此,所谓的“注释者”实际上可以是各自领域的专业人士,比如程序员、医生等,而不是从网上随机招募的人。这取决于LLM公司在招聘这些数据标注员时的标准和策略。

聪明人骗傻子的放事__人傻钱多还好骗

如今,他们越来越希望雇用更高技能的工人。然后LLM会尽力模拟这些专业人士的回答风格,为用户提供尽可能专业的答案。

根据法律,我们会有通用人工智能吗?

说了这么多,我们一直向往的AGI什么时候才能实现呢?

LeCun一反常态地表示,AGI距离我们只有5到10年的时间。

_人傻钱多还好骗_聪明人骗傻子的放事

现在,他已经同意了奥特曼、杰米斯等大佬的说法。

但继续走现在的发展道路肯定行不通。

不仅LeCun认为“LLM路线注定失败”,人工智能研究员兼投资人Kevin最近发表了一篇长篇博文,用数学公式推论:为什么我们永远无法仅依靠法律达到AGI。

_人傻钱多还好骗_聪明人骗傻子的放事

聪明人骗傻子的放事__人傻钱多还好骗

指出,目前之所以对AGI何时到来存在不同意见,是因为许多意见更多地基于动机或意识形态,而不是确凿的证据。

有些人认为我们很快就会迎来AGI,而另一些人则认为我们距离它还很远。

为什么许多模型提供商对当今模型的扩展能力如此乐观?

我决定自己用Law来做一些计算推论,看看未来AI模型会如何演变。

法律并不像我们想象的那样具有预测性

定律是一种定量关系,描述模型输入(数据和计算量)和模型输出(预测下一个单词的能力)之间的联系。

它是通过在图表上绘制不同级别的模型输入和输出而得出的。

聪明人骗傻子的放事__人傻钱多还好骗

我们是否只需要扩展现有模型并获得显着的性能改进?

显然事实并非如此。利用定律进行预测并不像某些人想象的那么简单。

首先,大多数法律(例如 Llama 等人和 Llama 的研究)预测的是模型预测数据集中下一个单词的能力,而不是模型在现实世界任务中的表现。

2023年,知名研究员Jason Wei在博客中指出,“目前还不清楚替代指标(例如损失)是否可以预测能力的出现……这种关系尚未得到充分研究……”

聪明人骗傻子的放事__人傻钱多还好骗

_人傻钱多还好骗_聪明人骗傻子的放事

聪明人骗傻子的放事_人傻钱多还好骗_

连接两个近似值进行预测

为了解决上述问题,我们可以拟合第二定律来定量地将上游损失与实际任务性能联系起来,然后将这两个定律连接起来来预测模型在实际任务中的性能。

损失 = f(data, ) 现实世界任务 = g(loss) 现实世界任务 = g(f(data, ))

2024 年,Gadre 等人。和杜贝特等人。提出了此类法律。

Dubet 使用这条链式法则进行预测,并声称其预测能力适用于 Llama 3 模型,具有“超过四个数量级的良好外推能力”。

然而,对于第二类法律的研究才刚刚起步,还处于早期阶段。由于数据点太少,拟合函数的选择将高度依赖主观判断。

例如,在下图中,Gadre 假设多个任务的平均性能与模型能力呈指数关系(上图),而 Dubet 则假设单个任务呈 S 曲线(下图的 ARC-AGI 任务) 。这些法律也高度依赖于具体任务。

如果没有对现实世界任务的损失和准确性之间的关系做出强有力的假设,我们就无法稳健地预测未来的模型能力。

聪明人骗傻子的放事_人傻钱多还好骗_

尝试使用连锁法则进行预测是一个糟糕的尝试

如果我们盲目地使用一些连锁法则来进行预测会发生什么?

请注意,这里的目标是展示如何使用一组定律(例如 Gadre 的研究)来生成预测,而不是获得详细的预测结果。

首先,我们可以使用公开信息来估计未来几代模型发布所需的数据和计算输入。

这部分可以参考最大数据中心建设的公告,根据其GPU容量来估算计算能力,并将其映射到每一代模型的演进中。

聪明人骗傻子的放事_人傻钱多还好骗_

马斯克的 xAI 超级计算机最初可容纳 10 万台 H100

然后,我们可以利用Law来估算这些计算集群所需的数据量。

根据我们使用的定律,最大的公开宣布的计算集群(容量约为 1 亿个 GPU)理想情况下需要训练 269 万亿个才能最大程度地减少损失。

该数字大约比 -V2 数据集大十倍,是索引网络大小的一半。

听起来很合理,所以我们暂时坚持这个假设。

聪明人骗傻子的放事_人傻钱多还好骗_

人傻钱多还好骗__聪明人骗傻子的放事

最后,我们可以将这些输入插入链式法则并进行推断。

重点关注右侧的图表很重要,因为它在垂直轴上显示实际任务性能,而在水平轴上显示数据和计算输入。

蓝点代表现有模型(如GPT-2、GPT-3等)的性能,而红点则通过下一代模型(如GPT-5、GPT-6、GPT-7、等)规模扩张性能:

_聪明人骗傻子的放事_人傻钱多还好骗

从图中,我们可以得到如下预测结果——

从GPT-4开始,性能提升将呈现明显的边际下降趋势。

GPT-4到GPT-7模型在实际任务中的预测性能提升(计算量增加约4000倍)相当于GPT-3到GPT-4预测性能的提升(计算量增加约4000倍)增加约100倍)。

我们正在接近不可减少的损失吗?

如果你看一下左边的图表:这些法律的问题是我们越来越接近不可减少的损失。

后者与数据集的熵密切相关,代表了模型在该数据集上可以实现的最佳理论性能。

根据加德雷定律,在数据集上,如果最优模型只能达到1.84左右的不可约损失,而我们在GPT-4上达到了2.05左右,那么提升的空间就非常有限了。

_聪明人骗傻子的放事_人傻钱多还好骗

然而,大多数实验室并没有公布其最新前沿模型训练的损失值,因此我们目前不知道我们实际上离不可约损失有多近。

拟合函数的主观性和数据的局限性

如前所述,第二定律中拟合函数的选择具有很强的主观性。

例如,我们可以使用函数而不是指数函数重新拟合 Gadre 论文中的损失和性能点:

聪明人骗傻子的放事_人傻钱多还好骗_

但结论基本没有改变。

如果我们只是将左侧图像(红线)中的指数拟合与我们的自定义拟合(紫色虚线)进行比较,局限性就很明显:我们根本没有足够的数据点来自信地将损失与现实世界的性能相关联。最佳拟合函数。

没有人知道下一代车型会有多强大

显然,改进上述“预测”的方法有很多:使用更好的定律、使用更好的数据和计算估计等。

_聪明人骗傻子的放事_人傻钱多还好骗

最终,Law 是一个噪声近似,通过这种链预测方法,我们结合了两个噪声近似。

如果考虑到下一代模型可能由于不同的架构或数据组合而针对不同的条件具有全新的规律,那么没有人真正知道未来几代模型的扩展能力。

为什么大家都这么乐观?

如今,无论是各大科技公司还是明星初创企业都非常看好Scale现有的模式:

例如,微软CTO曾表示:“虽然其他人可能不这么认为,但就规模而言,我们并没有进入收益递减的阶段。事实上,这里存在着指数级增长。”

_人傻钱多还好骗_聪明人骗傻子的放事

一些人将这种乐观情绪归因于商业动机,但认为它来自以下因素的结合:

(1)实验室可能有更乐观的内部规律

(2) 尽管存在广泛的怀疑,实验室还是亲身体验了结果

(3) 是看涨期权

谷歌首席执行官皮查伊表示:“当我们经历这样的曲线时,对我们来说,投资不足的风险远远大于投资过度的风险,即使在某些情况下事实证明我们投资了太多……这些基础设施它对我们来说具有广泛的应用价值......”

_人傻钱多还好骗_聪明人骗傻子的放事

meta CEO小扎这样认为:“我宁愿过度投入、争取这样的结果,也不愿通过较慢的发展来省钱……现在有很多公司可能过度建设……但落后的成本会让你未来 10 到 15 年,在最重要的技术上处于劣势。”

_聪明人骗傻子的放事_人傻钱多还好骗

未来将走向何方?

总而言之,有人认为推断定律并不像许多人声称的那么简单:

(1) 目前大多数关于预测人工智能能力的讨论质量较低

(2) 公法对模型未来能力的预测非常有限。

因此,为了有效评估当今的人工智能模型是否仍然可行,我们需要更多基于证据的预测和更好的评估基准。

如果我们能够了解未来模型的功能,我们就可以优先考虑为这些功能做好准备,例如,在生物研究革命之前建立生物制造能力,为提高公司技能以应对劳动力替代等做好准备。

从个人角度来说,我还是非常看好AI能力的进步,因为这个领域有优秀的人才。

但人工智能并不像人们想象的那样具有确定性,没有人真正知道人工智能在未来几年会带来什么样的发展。

参考:

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2