然而,针对指令调优数据集的数据评估和选择方法尚无统一的体系,缺乏全面深入的评论。
为了填补这一空白,腾讯优图实验室发布了一份完整的评测。
篇幅逾1万字,涉及文献400余篇。

本研究从质量、多样性、重要性三个主要方面涵盖了数据评估与选择方法,并对每个方面进行了分类和详细阐述。
同时,作者也关注该领域的最新发展和趋势,包括一些新兴的技术和方法,例如利用GPT等强大的语言模型进行数据评分和基于两层优化的采样等。
指令调优数据集的综合评估
LLM的发展目标是释放自然语言处理(NLP)任务的泛化能力,其中指令调优起着重要作用,而数据质量对指令调优的效果至关重要。
作者对各种指令调优数据集的数据评估与选择方法进行了深入研究,并从质量、多样性和重要性三个方面进行了分类和阐述。

★质量评估与选择
“质量”主要指指令响应数据点的完整性、准确性和合理性,现有方法通常会制定统一的评分机制来综合考虑这几个维度。
关于数据集的质量,作者主要总结了四种测试方法:
★多元化评估与选拔
这里的多样性是指指令数据集的个体多样性(如词汇和语义丰富度)和整体多样性(如数据分布),选择多样化的数据集可以增强模型的泛化能力。
作者还总结了四种测试数据集多样性的方法。
★重要性评估与选择
重要性是指样本对于模型训练的必要性,与模型任务相关,也与性能相关。简单的样本可能不需要额外的调优,而困难的样本对于模型训练来说至关重要。
评估重要性的指标和方法有以下几种:

当前的挑战和未来的方向
作者发现,由于评估损失与基准性能之间的相关性较差以及测试集污染等原因,数据选择的有效性与模型在基准上报告的性能之间存在差距。
未来需要构建专门的基准来评估指令调整模型和选定的数据点,并将数据选择和模型评估解耦,以排除数据污染的影响。
目前尚无统一的标准来区分“好”与“坏”指令,现有的质量度量方法都是面向任务的,缺乏可解释性。未来需要更加统一、通用的定义以及提高选择流程的可解释性,以满足不同下游任务的需求。
随着数据集的增长,由于噪声增加、过拟合和遗忘问题,确定最佳选择率变得困难。建议通过质量测量方案确定最佳选择率,强调多样性,并考虑与预训练数据的相似性,并优化数据评估和选择的可扩展性。
除了数据集之外,大型模型本身的规模也在不断增加,数据评估和选择的成本效益正在降低,需要开发高效的代理模型,同时重新思考传统的机器学习技术,如优化技术和降维方法。
项目主页:
论文地址:


