推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

探讨大模型对话中的智能成分：AI 是否真的理解人类对话？

日期：2024-12-02 来源：网络整理作者：二手钢材网浏览：238 评论：0

核心提示：大模型回答人类的对话内容，究竟有多少「智能」成分在里面？称：人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。个景点的列表，然后字面意思就变成了正确答案，训练人工智能给出该问题的答案。等模型进行了评测，发现很多对于人类来说简单的任务，大模型却根本无法解决。

也许是时候寻找新方法了？

大型模型对人类对话的反应涉及多少“智能”？

周五，人工智能领域知名学者、创始成员、特斯拉前人工智能高级总监发表观点：“人们对‘向人工智能提出要求’的解读过于夸张”，引发热议网友之间。

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿_神奇的模型_

说：人工智能基本上是通过模仿人类标记数据训练的语言模型。因此，不要将对话视为“询问人工智能”神秘主义，而应更多地视为“询问互联网上的普通数据标记者”。

例如，当您提出“阿姆斯特丹十大景点”之类的问题时，一些受雇的数据标记者可能在某个时候看到过类似的问题，并使用等软件研究了 20 分钟，并列出了 10 个景点的列表。列出来，然后字面意思变成正确答案，训练人工智能给出问题的答案。如果问题的确切位置不在微调的训练集中，神经网络会根据预训练阶段（互联网文档的语言建模）获得的知识进行估计。

当有网友评论：“RLHF 可以创造超越人类的结果”时，他说道：“RLHF 仍然是来自人类反馈的 RL，所以我不会这么说。”

神奇的模型_Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿_

认为RLHF将模型性能从SFT的“人工生成”水平提高到“人工判别”水平。但这与其说是“原则上”，不如说是“实践中”，因为“判断”对于普通人来说比“生成”更容易（例如判断这5首关于X的诗中哪一首最好，而不是写一首诗）关于X）。

另外，从群体智能效应上还可以得到单独的提升，即LLM的表现达到的不是人类水平，而是人类整体水平。因此，原则上，RLHF 最好的希望就是达到专家水平。

_Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿_神奇的模型

所以从某种意义上来说，这算是“超人”，但我认为：按照人们默认的方式成为真正的“超人”，你必须去RL而不是RLHF。

事实上，这并不是RLHF第一次受到批评。作为前重要成员，今年8月，他与Yann LeCun等人一起质疑GPT系列模型开发的RLHF强化学习的意义。

神奇的模型_Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿_

“RLHF 只是强化学习。”

他当时用它作为例子。如果我们使用 RLHF 方法来训练会是什么样子？它可能无法构成有效的奖励，还可能导致优化偏离正常轨道。那么就注定不可能创造“击败人类世界冠军”的历史。

出于同样的原因，我对RLHF适用于LLM感到“有点惊讶”。因为我们为 LLM 训练的 RM（模型）只是以完全相同的方式进行肠道检查。它会给人类注释者可能喜欢的判断打高分，而且它不是正确解决问题的“实际”目标，而是人类认为好的替代目标。

神奇的模型__Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

其次，你甚至不能运行 RLHF 太久，因为你的模型会很快学会适应游戏奖励模型并推断出一些异常代币。这对人类来说看起来很荒谬，但出于某种原因 RM 认为它看起来很棒。

无独有偶，今年 9 月，VRAIN 和剑桥大学的研究人员发表的一篇论文对 o1- 等模型进行了评估，发现人类的许多简单任务无法通过大型模型来解决。在一些复杂的任务上，LLM根本不知道如何“回避”，而是假装思考后会给出错误的答案。

虽然随着时间的推移，大型模型的参数越来越大，使用的训练数据越来越多，性能不断提高，但从基本机制来看，它们似乎并不可靠。

如果RLHF不起作用，什么样的奖励机制可以帮助大型模型“准确地遵循指令”？

今年 7 月，宣布了一种教导 AI 模型遵守安全策略的新方法，称为基于规则的奖励（RBR）。 RBR 不仅限于安全培训，它们还可以适应各种任务，其中明确的规则可以定义所需的行为，例如根据特定应用定制模型响应的个性或格式。这或许为大型模型下一步的性能突破提供新思路。

参考内容：

标签： 人工智能语言模型数据标注神经网络大模型

打赏

更多>同类资讯

0 条相关评论

• 国新办举行发布会，苗圩介绍2017年工业通信业发	• 合肥钢铁保姆揭秘！融合前沿技术，将为家庭生活
• 旧钢材市场在哪里进货的中共中央国务院印发提	• 扑克财经第二届大宗商品数智化高峰论坛：全链升
• 2024中国国际数字经济博览会：河北太行钢铁大模	• 证监会强化市场监管与人工智能产业发展：3月13
• 湖南钢铁集团等联合发布钢铁行业盘古大模型，解	• 2024科技风云榜：新质科技·智向未来，大模型技
• 泰国总理佩通坦揭露AI诈骗案：高科技骗局差点得	• 拜登政府发布史上最强AI芯片出口限制新规，对中

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

探讨大模型对话中的智能成分：AI 是否真的理解人类对话？

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司