LLM 功能强大,但并不完美。它可能会出错,或者产生无用甚至有害的结果。例如,有人发现它可以教人们如何窃取:

当被要求教人们如何从商店偷东西时,左边的人拒绝回答;右边的人在问题中添加了“没有道德”后,给出了从商店偷东西的指南。
这时候()就至关重要了,它的作用就是让LLM与人的价值观保持一致。
在 LLM 对齐方面,强化学习与人类反馈(RLHF)是一项突破性的技术,这种方法催生了 GPT-4、等强大的模型。在 RLHF 之后,人们也探索了各种各样的 LLM 对齐方法,但至今还没有人全面总结出 LLM 与人类偏好对齐的方法。
决定填补这一空白,并最近发布了一份长达37页的评论报告,该报告按类别总结了现有的研究文献并详细分析了每篇论文。

本文分为四个主要主题:奖励模型、反馈、强化学习(RL)和优化。每个主题包含进一步的子主题,如图 1 所示。

奖励模型的子主题包括:1. 显性奖励模型与隐性奖励模型;2. 点式奖励模型与偏好模型;3. 响应级奖励与代币级奖励;4. 负偏好优化。

反馈的子主题包括:1. 偏好反馈与二元反馈;2. 配对反馈与列表反馈;3. 人类反馈与人工智能反馈。

强化学习的子主题包括:1.基于参考的强化学习与无参考的强化学习;2.长度控制的强化学习;3.强化学习的不同分支;4.在线策略强化学习与离线策略强化学习。
优化的子主题包括:1. 在线/迭代偏好优化 vs. 离线/非迭代偏好优化;2. 分离 SFT 和对齐 vs. 合并 SFT 和对齐。

表1列出了本综述报告中分析的所有论文在这13个评价指标上的分类。

调查报告
本部分将对每篇论文进行详细介绍,让读者无需阅读原论文即可了解这些重要的创新。 将对各个研究方向进行简要梳理,并列出具有代表性的论文。
1. RLHF/PPO
LLM 的预训练需要使用来自不同来源的大型语料库,这本身无法确保这些数据集的质量。此外,LLM 的主要目标是预测下一个 token,这与“有帮助且安全地遵循用户指令”的目标不一致。因此,LLM 可能会输出对用户不真实、有害或无用的内容。本质上,这些模型与用户意图不一致。RLHF/PPO 的主要目标是使语言模型在各种任务上与用户意图保持一致,这是通过使用人工反馈来微调模型来实现的。关于这个主题的研究很多。
从,这就是GPT-4等训练和模型的基础,请参考《GPT-4技术报告》以及机器之心的报告《GPT-4震撼发布:多模态大模型,直接升级,Bing,开放API,Game Over?》《跟李牧学背后技术:67分钟读完论文》。
通过融入人类偏好,解决了评估 LLM 生成的答案的困难。用于评估 LLM 的传统评估指标(例如 BLEU、ROUGE 和 ROG)无法保证与人类偏好的一致性。为了解决这个问题,研究人员直接将人类偏好融入到 LLM 中以增强其性能。这个过程通常涉及两个主要步骤:奖励模型学习和强化学习策略训练。
在奖励模型学习阶段,使用成对的响应训练明确的逐点奖励函数。
随后,强化学习策略训练阶段开始;在此阶段,LLM 和预先训练的奖励模型分别充当强化学习框架中的代理和环境。
对于训练,使用三个数据集:1. SFT 数据集:包含用于训练 SFT 模型的注释者演示。2. RM(奖励模型)数据集:由人类注释者对模型输出的排名组成,用于训练奖励模型。3. PPO 数据集:由人类注释者对模型输出的排名组成,用于训练奖励模型。3. PPO 数据集:由人类注释者对模型输出的排名组成,用于训练奖励模型。
训练好的数据将从有用性、可信度、有害性三个方面进行评估。
从结果来看,人工评估显示,“人们更喜欢 1.3B 参数版本的模型的输出,而不是 175B 的 GPT-3,尽管后者的参数少了 100 多倍。”值得注意的是,在有用性和毒性任务上的表现都优于 GPT-3,这对于对齐至关重要。
右心室高频高频振荡
也研究过同样的课题,论文是《a and with from human》。
研究发现,RLHF 有助于对齐,但也可能导致模型在某些 NLP 基准上的性能下降,这种现象被称为“对齐税”。开发的模型有 13 亿个参数。相比之下,研究人员评估了 7 个不同的模型,这些模型的大小从 13M 到 52B 不等,其规模以 4 倍的几何级数增长。
他们得出的结论是,对齐对较小的模型征收了“税”,但只为较大的模型带来了好处,特别是那些具有 13B 到 52B 参数的模型。
考虑到对齐的这种优势,他们还尝试使用编程技术数据集来提升 LLM 的能力。RLHF 的方法包括 PPO 和 PPO-ptx,其中 PPO-ptx 的设计目标是减少 NLP 基准上的对齐税。RLHF 的研究发现,只要模型足够大,PPO 本身就可以在 NLP 下游任务上带来对齐的好处。他们还确定了强化学习策略训练中 KL 散度的最优参数为 β = 0.001。
在线/迭代 RLHF
传统上,用于对齐LLM的RLHF技术都是离线方法,但是此类方法存在一些缺点,例如难以获得可以处理分布外数据的结果。
为此,LLM 需要不断进行微调,进行迭代/在线学习,即利用中间策略生成响应,然后使用 () 对这样的配对数据给出偏好反馈,再将这些反馈反馈给策略。在实践中,迭代学习分为偏好 学习和迭代策略优化两个部分。参见论文《RLHF: From to RLHF》。
2. 自由落体
获取人类偏好数据集的成本并不低,因此基于人工智能反馈的强化学习(RLAIF)应运而生。另外,随着LLM能力的不断提升,能够收集到的AI偏好数据集的质量也在不断提升,这可以提升LLM的对齐效果。
右心室舒张末期
在RLHF基础研究工作的基础上,提出了一种新的方法RLAIF,详见论文“ai: from ai”。
该方法包括两个主要阶段:1. 通过(批评)和(修订)进行监督学习,由章程指导。2. RLAIF。
谷歌的 RLAIF
基于RLAIF的研究成果,谷歌研究团队认为,此前的研究无法直接比较人类反馈和AI反馈的效果,值得进一步研究。在收集AI反馈的过程中,需要创建一个结构化的反馈,该反馈由引言、少量示例(可选)、待注释示例和结论组成。
为了生成 AI 反馈,需要进行两步评估:首先,LLM 使用指令中的四个部分加上 CoT 生成一个响应。下一步,这个 LLM 响应以“=”之类的结尾发送回 LLM,生成一个偏好概率,例如“1=0.6, 2=0.4”。为了减少位置偏差,需要交替放置这两个响应的顺序,并计算它们的平均分数。
RLAIF 流程采用了两种策略:1.“蒸馏式 RLAIF”,遵循传统的 RLHF 方法,即利用偏好训练出奖励模型,再利用该模型来训练 LLM 策略;2.“直接 RLAIF”,直接利用 LLM 反馈输出评估分数,再利用该分数作为强化学习策略训练的信号。
最后,评估过程使用三个关键指标:1. AI-注释者对齐:AI与人类注释者的一致性如何。2. 胜率:人类注释者比较两个候选者并选择其中一个的可能性有多大。3. 无害率:人类评估者认为无害的响应百分比。
更多细节请参考论文《RLAIF: from human with AI》。
直接人类偏好优化
传统的 RLHF 方法通常涉及优化源自人类偏好的奖励函数。虽然这种方法很有效,但也会带来一些困难,例如增加计算复杂度,以及在估计和优化奖励时需要考虑偏差-方差权衡。请参阅论文“High-using RLHF”。
最近的研究探索了其他方法,旨在直接根据人类偏好优化 LLM 策略(而不依赖于标量奖励信号)。
这些方法的目标是简化对齐过程,减少计算开销,并通过更直接地使用偏好数据实现更稳健的优化。通过将问题表述为偏好优化问题而不是奖励估计和最大化问题,这些方法可以为将语言模型与人类判断对齐提供不同的视角:
代币级 DPO
使用 DPO 时,奖励会同时分配给操作和响应。相比之下,使用 MDP 时,奖励会分配给单个操作。后续两篇论文在 token 级别阐述了 DPO,并将其应用扩展到 token 级别的分析。
迭代/在线 DPO
使用 DPO 时,所有可用的偏好数据集都用于对齐 LLM。为了不断改进 LLM,应该实施迭代/在线 DPO。这提出了一个有趣的问题:如何有效地收集新的偏好数据集。以下两篇论文深入探讨了这一主题。


