NPU技术挑战
NPU技术的发展使得大型语言模型(LLM)能够高精度地执行复杂的语言相关任务,实现更加自然的人机交互。
然而当前NPU技术面临的一个重要挑战是评估模型严重依赖人工标注。
人工生成的数据对于训练和验证模型至关重要,但收集这些数据既昂贵又耗时。随着模型的改进,之前收集的注释可能需要更新,从而降低它们在评估新模型方面的效用。
当前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括对有参考答案的任务使用自动指标,或使用直接输出分数的分类器。
这些方法都有局限性,特别是在创意写作或编码等复杂场景中,可能存在多个有效答案,导致方差大、人为判断成本高。
自学评估员
meta FAIR 团队推出了一种名为“自学评估器”的新方法,它不需要人工注释,而是使用合成数据进行训练。
该过程从种子模型开始,该模型生成对比的合成偏好对。然后,该模型评估和改进这些偏好对,并利用其判断力来提高后续迭代的性能。这种方法充分利用了模型生成和评估数据的能力,大大减少了对人工注释的依赖。

IT之家将关键步骤附如下:
1. 使用种子 LLM 为给定的指令生成基线响应。
2. 创建该指令的修改版本,使 LLM 生成比原始响应质量更低的新响应。

这些成对的回答构成了训练数据的基础,而作为法学硕士法官的“自学评估者”为这些成对的回答生成推理痕迹和判断。
通过迭代这个过程,模型通过自我生成和自我评估的数据不断提高判断的准确性,有效地形成了一个自我完善的循环。
结果
meta FAIR 团队在 Llama-3-70B- 模型上测试了“自学评估器”,在基准测试中将准确率从 75.4 提高到 88.7,达到或超过了使用人工注释训练的模型的性能,并超越了 GPT-4 等常用的大型语言模型评估(LLM)。


这一显著的改进证明了合成数据在加强模型评估方面的有效性。此外,研究人员进行了多次迭代,以进一步完善模型的能力。
參考


