Meta 推出自学评估器，利用合成数据训练 AI，缓解 NLP 技术依赖人工注释问题

日期：2024-08-07 来源：网络整理作者：二手钢材网浏览：249 评论：0

核心提示：而且随着模型的改进，以前收集的注释可能需要更新，从而降低了它们在评估新模型时的效用。团队推出了名为“自学评估器”的全新方式，不需要人工注释，而是使用合成数据进行训练。这种方法充分利用了模型生成和评估数据的能力，大大减少了对人工注释的依赖。

NPU技术挑战

NPU技术的发展使得大型语言模型（LLM）能够高精度地执行复杂的语言相关任务，实现更加自然的人机交互。

然而当前NPU技术面临的一个重要挑战是评估模型严重依赖人工标注。

人工生成的数据对于训练和验证模型至关重要，但收集这些数据既昂贵又耗时。随着模型的改进，之前收集的注释可能需要更新，从而降低它们在评估新模型方面的效用。

当前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括对有参考答案的任务使用自动指标，或使用直接输出分数的分类器。

这些方法都有局限性，特别是在创意写作或编码等复杂场景中，可能存在多个有效答案，导致方差大、人为判断成本高。

自学评估员

meta FAIR 团队推出了一种名为“自学评估器”的新方法，它不需要人工注释，而是使用合成数据进行训练。

该过程从种子模型开始，该模型生成对比的合成偏好对。然后，该模型评估和改进这些偏好对，并利用其判断力来提高后续迭代的性能。这种方法充分利用了模型生成和评估数据的能力，大大减少了对人工注释的依赖。

_meta 推出“自学评估器”：无需人工注释改善评估_meta 推出“自学评估器”：无需人工注释改善评估

IT之家将关键步骤附如下：

1. 使用种子 LLM 为给定的指令生成基线响应。

2. 创建该指令的修改版本，使 LLM 生成比原始响应质量更低的新响应。

_meta 推出“自学评估器”：无需人工注释改善评估_meta 推出“自学评估器”：无需人工注释改善评估

这些成对的回答构成了训练数据的基础，而作为法学硕士法官的“自学评估者”为这些成对的回答生成推理痕迹和判断。

通过迭代这个过程，模型通过自我生成和自我评估的数据不断提高判断的准确性，有效地形成了一个自我完善的循环。

结果

meta FAIR 团队在 Llama-3-70B- 模型上测试了“自学评估器”，在基准测试中将准确率从 75.4 提高到 88.7，达到或超过了使用人工注释训练的模型的性能，并超越了 GPT-4 等常用的大型语言模型评估（LLM）。

meta 推出“自学评估器”：无需人工注释改善评估_meta 推出“自学评估器”：无需人工注释改善评估_

这一显著的改进证明了合成数据在加强模型评估方面的有效性。此外，研究人员进行了多次迭代，以进一步完善模型的能力。

參考

标签： 技术挑战模型评估合成数据种子模型

打赏

更多>同类资讯

0 条相关评论

• 英伟达股价下跌1.96%，CEO黄仁勋谈Blackwell平	• 全球芯片代工市场格局：台积电占据60%份额，三
• AI技术革新：从iPhone到智能体，科技巨头如何改	• 浩鲸科技·鲸智大模型发布会举行，BI 大模型受
• 机器之心 AIxiv 专栏：促进学术交流与传播，欢	• 字节跳动豆包大模型团队与港大联合提出 ByteChe
• AI 技术与人类同质替代性问题探讨：从萝卜快跑