量子比特 |公众号
4位量化可以让现有的反学习/机器遗忘技术出现故障!
即大模型应人类的要求“假装”忘记特定知识(版权、私有内容等),但有手段可以再次“回忆”它。

近日,宾夕法尼亚州立大学、哈佛大学和亚马逊团队的一项新研究在 News 上引起热议。
他们发现,模型量化“失忆症”()可以部分甚至完全恢复他们遗忘的知识。
原因是在量化过程中,模型参数的微小变化可能会导致量化后的模型权重与原始模型权重相同。

看到这项研究后,不少网友也表示有些惊讶:
从信息论的角度来看,这有点令人惊讶,似乎这些知识在完整的 32 位中已经被成功删除,但是当你将其压缩到 4 位时,这些知识又重新出现了。
这让人想知道在压缩/量化步骤中丢失了哪些信息。

也许这些知识从未真正丢失,只是隐藏起来。
如果我们将神经网络视为代码,那么权重就是源代码,微调实际上可以有效地修改该代码以防止返回某些结果。
因此,您可能只是在某些输出周围设置了防火墙。但量化可能会使这些最近的编辑消失,因为它们太小而无法保留。

值得一提的是,该团队提出了一个策略来缓解这个问题。
该策略通过构建模块级显着性图来指导遗忘过程,仅更新模型中与遗忘数据最相关的部分,从而在保持模型效用的同时降低量化后知识恢复的风险。
话不多说,我们来详细说说康康。
让失忆模型恢复记忆

大型模型可能会在训练过程中无意中学到人类不希望其保留的知识,例如版权和私人内容。为了解决这个问题,研究人员此前提出了反学习(Anti-)的概念,其目的是从模型中去除特定的知识,而不需要重新训练模型。
现有主流的反学习方法包括梯度上升(GA)和负偏好优化(NPO)。他们通常采用较小的学习率并添加效用约束来保持模型的整体性能,同时忘记特定内容。 。
用于优化模型遗忘的最常见数学表达式是:
让我们再看看量化。考虑一组或一组权重 w。线性运算可以表示为y=wx。量化后为 y=Q(w)x,其中 Q(⋅) 为量化函数:
在本研究中,研究人员使用 Q(f) 来表示量化模型 f。因此,实现逆向学习方法,然后量化遗忘模型可以写为:
研究人员评估了六种针对大型模型的有效反学习方法——结合 NPO 和 GA 两种策略,在保留集上执行梯度下降(GDR)或最小化 KL 散度(KLR),形成 GA,,,NPO,,。

结果表明,这些方法在量化时“灾难性地失败了”。
具体来说,在全精度下,效用约束的反学习方法平均保留了21%的目标遗忘知识,但经过4位量化后,这一比例急剧上升至83%。
这意味着大部分“被遗忘”的知识可以通过简单的量化操作来恢复。
实验中还使用了不同位数的量化,包括4位和8位量化。量化精度对遗忘效果也有显着影响。 8位量化的影响相对较小。模型性能接近全精度版本,但在 4 Under-bit 量化时,遗忘性能显着恶化。
在NEWS(C新闻文章)和BOOKS(哈利波特系列)等基准数据集上进行了实验,使用了四个评估指标:
BB
逐字记忆(评估逐字复制能力)、知识记忆(评估知识问答能力)、隐私泄露(基于成员推理攻击评估隐私保护程度)、保留集效用(评估模型在未被遗忘的数据)。

研究人员还分析了各种量化技术对遗忘的影响,采用两种先进的4位量化方法GPTQ和AWQ,在相同的实验设置下进行实验。 NEWS数据集上的结果如下:

GPTQ 和 AWQ 的性能与 RTN 类似。
尽管研究人员表示他们努力有效地调整参数,但校准数据集是通用的,而不是针对被遗忘数据集的领域量身定制的,这意味着 GPTQ 和 AWQ 可能仍然保留了应该被遗忘的知识。
为什么?该怎么办?
经过分析,研究人员认为,造成这个问题的根本原因是:
现有的反学习方法使用较小的学习率和效用约束来维持模型效用,导致模型权重变化较小。在量化过程中,原始模型和遗忘模型的权重很容易映射到相同的离散值,从而使遗忘的知识重新出现。

于是,研究人员提出了一个名为SURE(-based with a Large Rate)的框架作为改进计划。


该框架通过构建模块级显着性图来指导遗忘过程,有选择地对与遗忘数据最相关的组件使用更大的学习率,同时最大限度地减少对其他特征的影响。
通过实验,验证了SURE策略在量化后防止遗忘知识恢复的有效性,并且与现有的抗学习方法相比,SURE在全精度模型上取得了可比的遗忘性能和模型效用。

研究人员还探讨了SURE策略中不同阈值对遗忘性能的影响,发现适度的阈值可以在遗忘性能和模型效用之间取得平衡。

更多详情,有兴趣的小朋友可以查看原论文,代码已经公开。
论文链接:
参考链接:
[1]
[2]


