推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

基于人类反馈的强化学习：让 LLM 与人类价值观保持一致的妙招

日期：2024-08-05 来源：网络整理作者：二手钢材网浏览：163 评论：0

核心提示：机器之心将简单梳理各个研究方向并列出代表性论文。本质上讲，这些模型并未与用户意图对齐。和配对的响应训练一个显式的逐点奖励函数。下游任务上带来对齐的好处。通过将该问题描述为一个偏好优化问题，而不是奖励估计和最大化问题，这些方法能提供一种将语言模型与人类判断对齐的不同视角：

LLM 功能强大，但并不完美。它可能会出错，或者产生无用甚至有害的结果。例如，有人发现它可以教人们如何窃取：

_对齐方式的区别_对齐工整

当被要求教人们如何从商店偷东西时，左边的人拒绝回答；右边的人在问题中添加了“没有道德”后，给出了从商店偷东西的指南。

这时候()就至关重要了，它的作用就是让LLM与人的价值观保持一致。

在 LLM 对齐方面，强化学习与人类反馈（RLHF）是一项突破性的技术，这种方法催生了 GPT-4、等强大的模型。在 RLHF 之后，人们也探索了各种各样的 LLM 对齐方法，但至今还没有人全面总结出 LLM 与人类偏好对齐的方法。

决定填补这一空白，并最近发布了一份长达37页的评论报告，该报告按类别总结了现有的研究文献并详细分析了每篇论文。

_对齐方式的区别_对齐工整

本文分为四个主要主题：奖励模型、反馈、强化学习（RL）和优化。每个主题包含进一步的子主题，如图 1 所示。

对齐工整_对齐方式的区别_

奖励模型的子主题包括：1. 显性奖励模型与隐性奖励模型；2. 点式奖励模型与偏好模型；3. 响应级奖励与代币级奖励；4. 负偏好优化。

_对齐工整_对齐方式的区别

反馈的子主题包括：1. 偏好反馈与二元反馈；2. 配对反馈与列表反馈；3. 人类反馈与人工智能反馈。

_对齐工整_对齐方式的区别

强化学习的子主题包括：1.基于参考的强化学习与无参考的强化学习；2.长度控制的强化学习；3.强化学习的不同分支；4.在线策略强化学习与离线策略强化学习。

优化的子主题包括：1. 在线/迭代偏好优化 vs. 离线/非迭代偏好优化；2. 分离 SFT 和对齐 vs. 合并 SFT 和对齐。

对齐工整_对齐方式的区别_

表1列出了本综述报告中分析的所有论文在这13个评价指标上的分类。

_对齐方式的区别_对齐工整

调查报告

本部分将对每篇论文进行详细介绍，让读者无需阅读原论文即可了解这些重要的创新。将对各个研究方向进行简要梳理，并列出具有代表性的论文。

1. RLHF/PPO

LLM 的预训练需要使用来自不同来源的大型语料库，这本身无法确保这些数据集的质量。此外，LLM 的主要目标是预测下一个 token，这与“有帮助且安全地遵循用户指令”的目标不一致。因此，LLM 可能会输出对用户不真实、有害或无用的内容。本质上，这些模型与用户意图不一致。RLHF/PPO 的主要目标是使语言模型在各种任务上与用户意图保持一致，这是通过使用人工反馈来微调模型来实现的。关于这个主题的研究很多。

从，这就是GPT-4等训练和模型的基础，请参考《GPT-4技术报告》以及机器之心的报告《GPT-4震撼发布：多模态大模型，直接升级，Bing，开放API，Game Over？》《跟李牧学背后技术：67分钟读完论文》。

通过融入人类偏好，解决了评估 LLM 生成的答案的困难。用于评估 LLM 的传统评估指标（例如 BLEU、ROUGE 和 ROG）无法保证与人类偏好的一致性。为了解决这个问题，研究人员直接将人类偏好融入到 LLM 中以增强其性能。这个过程通常涉及两个主要步骤：奖励模型学习和强化学习策略训练。

在奖励模型学习阶段，使用成对的响应训练明确的逐点奖励函数。

随后，强化学习策略训练阶段开始；在此阶段，LLM 和预先训练的奖励模型分别充当强化学习框架中的代理和环境。

对于训练，使用三个数据集：1. SFT 数据集：包含用于训练 SFT 模型的注释者演示。2. RM（奖励模型）数据集：由人类注释者对模型输出的排名组成，用于训练奖励模型。3. PPO 数据集：由人类注释者对模型输出的排名组成，用于训练奖励模型。3. PPO 数据集：由人类注释者对模型输出的排名组成，用于训练奖励模型。

训练好的数据将从有用性、可信度、有害性三个方面进行评估。

从结果来看，人工评估显示，“人们更喜欢 1.3B 参数版本的模型的输出，而不是 175B 的 GPT-3，尽管后者的参数少了 100 多倍。”值得注意的是，在有用性和毒性任务上的表现都优于 GPT-3，这对于对齐至关重要。

右心室高频高频振荡

也研究过同样的课题，论文是《a and with from human》。

研究发现，RLHF 有助于对齐，但也可能导致模型在某些 NLP 基准上的性能下降，这种现象被称为“对齐税”。开发的模型有 13 亿个参数。相比之下，研究人员评估了 7 个不同的模型，这些模型的大小从 13M 到 52B 不等，其规模以 4 倍的几何级数增长。

他们得出的结论是，对齐对较小的模型征收了“税”，但只为较大的模型带来了好处，特别是那些具有 13B 到 52B 参数的模型。

考虑到对齐的这种优势，他们还尝试使用编程技术数据集来提升 LLM 的能力。RLHF 的方法包括 PPO 和 PPO-ptx，其中 PPO-ptx 的设计目标是减少 NLP 基准上的对齐税。RLHF 的研究发现，只要模型足够大，PPO 本身就可以在 NLP 下游任务上带来对齐的好处。他们还确定了强化学习策略训练中 KL 散度的最优参数为 β = 0.001。

在线/迭代 RLHF

传统上，用于对齐LLM的RLHF技术都是离线方法，但是此类方法存在一些缺点，例如难以获得可以处理分布外数据的结果。

为此，LLM 需要不断进行微调，进行迭代/在线学习，即利用中间策略生成响应，然后使用 () 对这样的配对数据给出偏好反馈，再将这些反馈反馈给策略。在实践中，迭代学习分为偏好学习和迭代策略优化两个部分。参见论文《RLHF: From to RLHF》。

2. 自由落体

获取人类偏好数据集的成本并不低，因此基于人工智能反馈的强化学习（RLAIF）应运而生。另外，随着LLM能力的不断提升，能够收集到的AI偏好数据集的质量也在不断提升，这可以提升LLM的对齐效果。

右心室舒张末期

在RLHF基础研究工作的基础上，提出了一种新的方法RLAIF，详见论文“ai: from ai”。

该方法包括两个主要阶段：1. 通过（批评）和（修订）进行监督学习，由章程指导。2. RLAIF。

谷歌的 RLAIF

基于RLAIF的研究成果，谷歌研究团队认为，此前的研究无法直接比较人类反馈和AI反馈的效果，值得进一步研究。在收集AI反馈的过程中，需要创建一个结构化的反馈，该反馈由引言、少量示例（可选）、待注释示例和结论组成。

为了生成 AI 反馈，需要进行两步评估：首先，LLM 使用指令中的四个部分加上 CoT 生成一个响应。下一步，这个 LLM 响应以“=”之类的结尾发送回 LLM，生成一个偏好概率，例如“1=0.6, 2=0.4”。为了减少位置偏差，需要交替放置这两个响应的顺序，并计算它们的平均分数。

RLAIF 流程采用了两种策略：1.“蒸馏式 RLAIF”，遵循传统的 RLHF 方法，即利用偏好训练出奖励模型，再利用该模型来训练 LLM 策略；2.“直接 RLAIF”，直接利用 LLM 反馈输出评估分数，再利用该分数作为强化学习策略训练的信号。

最后，评估过程使用三个关键指标：1. AI-注释者对齐：AI与人类注释者的一致性如何。2. 胜率：人类注释者比较两个候选者并选择其中一个的可能性有多大。3. 无害率：人类评估者认为无害的响应百分比。

更多细节请参考论文《RLAIF: from human with AI》。

直接人类偏好优化

传统的 RLHF 方法通常涉及优化源自人类偏好的奖励函数。虽然这种方法很有效，但也会带来一些困难，例如增加计算复杂度，以及在估计和优化奖励时需要考虑偏差-方差权衡。请参阅论文“High-using RLHF”。

最近的研究探索了其他方法，旨在直接根据人类偏好优化 LLM 策略（而不依赖于标量奖励信号）。

这些方法的目标是简化对齐过程，减少计算开销，并通过更直接地使用偏好数据实现更稳健的优化。通过将问题表述为偏好优化问题而不是奖励估计和最大化问题，这些方法可以为将语言模型与人类判断对齐提供不同的视角：

代币级 DPO

使用 DPO 时，奖励会同时分配给操作和响应。相比之下，使用 MDP 时，奖励会分配给单个操作。后续两篇论文在 token 级别阐述了 DPO，并将其应用扩展到 token 级别的分析。

迭代/在线 DPO

使用 DPO 时，所有可用的偏好数据集都用于对齐 LLM。为了不断改进 LLM，应该实施迭代/在线 DPO。这提出了一个有趣的问题：如何有效地收集新的偏好数据集。以下两篇论文深入探讨了这一主题。

标签： 奖励模型反馈强化学习优化

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

基于人类反馈的强化学习：让 LLM 与人类价值观保持一致的妙招

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司