论文第一作者为香港中文大学(深圳)数据科学学院二年级博士生袁有良,其导师为香港中文大学(深圳)数据科学学院何平嘉教授和腾讯AI Lab涂兆鹏博士。此项工作由袁有良在腾讯AI Lab实习期间完成。何平嘉团队的研究重点为软件工程、大模型、面向SE的AI以及可信人工智能。
大型语言模型 (LLM) 展现出令人印象深刻的智能水平。因此,确保其安全性至关重要。已经提出了各种策略来使 LLM 符合人类道德。然而,目前最先进的模型(如 GPT-4 和 -70b-)仍然容易受到越狱攻击,并被用于恶意目的。
为什么这些机型在经过广泛的安全调整后,仍然容易被越狱?我们如何进一步深化安全调整?
针对这两个问题,香港中文大学(深圳)何平家团队与腾讯人工智能实验室联合提出了一种简单而新颖的安全微调方法(DeRTa),可以使大型语言模型拥有“回归正轨”的能力,从而在不影响模型实用性的前提下显著提高其安全性()。
论文标题:你感觉:法学硕士
论文地址:
开源代码:
研究人员发现,安全微调数据中存在拒绝位置偏差,即模型拒绝回答的行为总是出现在响应的开头,这可能会妨碍模型在后续位置保持安全的能力。为了验证这一猜想,研究人员使用越狱样本进行了-8B和-70B的测试。结果显示,几乎所有(99.5%)被模型成功拒绝的越狱样本,在前五个单词中都出现了拒绝词(如Sorry)。一旦开头没有被拒绝,模型将很难在后续位置表现出安全行为。
方法
为了解决这个问题,论文提出了解耦拒绝训练(DeRTa)。DeRTa 包括两种新颖的设计:
带有有害前缀的最大似然估计 (MLE):在安全回复的开头添加随机长度的有害回复 ( ) 可训练 LLM 拒绝任何位置的回复,而不仅仅是开头。此外,添加有害前缀可提供额外的背景信息,从而显著提高 LLM 识别和避免不安全内容的能力。
增强转换优化(RTO):虽然添加有害前缀可以帮助模型从有害状态转换到安全状态,但每个训练样本仅提供单一转换,这可能不足以让 LLM 有效识别和预防潜在威胁。为了解决这个问题,研究人员引入了一个辅助训练目标 RTO,它允许模型在有害序列的任意位置预测下一个单词为“Sorry”,从而在有害回复序列的每个位置学习从有害到安全的转换。
上述设计保证了模型防御机制的全面增强,让模型学会“走错路再回来”的行为。
这个方法的设计也在上引起了一些讨论。
主要实验
为了验证方法的有效性,研究人员在两个知名的模型家族(8B & 70B)和(7B & 8×7B)上进行了实验,涵盖了六种不同的越狱攻击方法。结果显示:
DeRTa 在不牺牲实用性的情况下显著提高了安全性。
DeRTa可以进一步提高-70B-的安全性。
分析实验
为了提供更多有价值的见解,研究人员对DeRTa的工作原理进行了更加详细的分析,主要基于-70B,具体包括:
1.案例研究:DeRTa如何影响拒绝词的位置分布
2. 消融实验,DeRTa中两种策略的效果
3. 实验一分析:与DPO进行比较,探讨有害回复在训练数据中的作用
4. 实验2分析:DeRTa对不同模型尺寸的适用性
首先,论文中给出的例子具体展示了DeRTa模型“走偏归正”的能力:即使在已经输出了一部分不安全的文本的情况下,模型也能有效过渡到安全状态。另外,作者给出了不同方法下模型输出的拒绝词的位置分布。可以看出,使用RTO的模型在相当靠后的位置依然能保持安全。
在消融实验中,实验结果表明,仅使用有害前缀策略不足以应对各种形式的攻击。例如,这种策略对防御这种类型更复杂的攻击帮助不大。这种攻击通过要求模型完成代码来逃脱。在前一个位置的回复中,模型会在没有恶意的情况下完成代码。在某个位置,模型会在生成恶意回复的同时开始完成代码。
RTO可以有效弥补有害前缀策略的这些不足,使得模型表现出较高的安全性,可见RTO对于强化(赋予)模型在任意位置的拒绝能力是至关重要的。
RTO 的成功自然而然地引发了一个问题:模型安全性的提升是否可以归因于在训练中融入有害回复,而不是对 token 级安全转换进行建模?为了回答这个问题,作者将 DeRTa 与 DPO 进行了比较。这个实验进一步验证了 DeRTa 带来的安全性提升并非简单地利用了有害回复,而是得益于其对 token 级安全转换的直接建模。
此外,论文还展示了在不同尺寸的模型上的表现,包括(8B & 70B)和(7B & 8×7B),结果表明该方法对于不同尺寸的模型都有很好的效果。
结论
大模型的安全性还有很长的路要走,如何突破表面对齐,深入安全性是一个非常有挑战性的任务。研究人员在这里给出了一些探索和思考,希望为该领域的研究提供一些有价值的见解和基线方法。


