AIxiv专栏是机器之心发布学术和技术内容的专栏。几年来,机器之心AIxiv专栏已收到2000余篇报道,覆盖全球各大高校和企业的顶级实验室,有效促进了学术交流和传播。如果您有优秀的作品想要分享,请随时投稿或联系我们进行举报。提交电子邮件:;
核心作者包括何彦成、李世龙、刘家恒、苏文博。作者团队来自桃天集团算法技术-未来生活实验室团队。为了构建面向未来的生活方式和消费方式,进一步提升用户体验和商户经营业绩,桃田集团集中算力、数据和顶尖技术人才,建立未来生活实验室。实验室聚焦大模型、多模态等人工智能技术方向,致力于构建与大模型相关的基础算法、模型能力和各类人工智能应用,引领人工智能在日常消费领域的技术创新。
如何解决模型生成错觉一直是人工智能(AI)领域未解决的问题。为了衡量语言模型的事实正确性,一个名为 的评审集。我们也一直关注模型事实正确性领域,目前该领域存在数据过时、评估不准确、覆盖不全面等问题。例如,现在广泛使用的知识评估集是CMMLU、C-eval等选择题形式的评估集。
为了进一步同步推动中文社区对模型事实正确性的研究,桃田集团算法技术-未来生活实验室团队提出了此,这是中国首个系统、全面评估模型解答能力的评估集简短的事实问题。可以全面检测模型在各个领域的知识水平。具体来说,它有六大特点:
中文:以中文为主,具体包括与中国文化等特色知识相关的问题。全面性:涵盖6大类专题(中国文化、人文社会科学、自然科学、生活艺术与文化、工程技术与应用科学、社会)99个小类专题高质量:我们进行了全面、严格的质量控制,包括52 名外包和 6 名算法工程师的参与 静态:参考答案随时间推移保持不变,保证评估集的长期有效性,可以长期作为模型知识能力评估的基准。易于评估:评估数据的问答很短,可以基于任何模型进行评估,并且可以以更低的成本和更快的速度进行高一致性评估。难点和区别:我们评估了40+个国内外开源和闭源大型模型。目前,在评估集中,o1-刚刚过及格线(准确率63.8),其他模型大多处于低分状态。其中GPT-4o mini只有37.6分,-6B和Qwen2.5-1.5B只有11.2和11.1的准确率。
我们以中文为基础,对现有LLM的事实能力进行了全面评估。并维护一份全面的清单。同时,我们还在评估集上实验分析了推理律、模型校准、RAG、对齐税等研究问题。随后,这个评估集可以作为这些方向的重要参考之一。
总之,我们希望帮助开发者深入了解其模型在中文领域的事实正确性,同时也为其算法研究提供重要基石,共同推动中文基础模型的成长。


1. 数据集构建

在构建数据集时,我们采用了严格而彻底的流程来确保高标准的数据质量。主要分为自动化施工和质量控制两个阶段:
1、自动化构建阶段主要包括五个步骤:
(1)知识内容提取和过滤:我们从维基百科等各个知识领域收集大量知识丰富的文本内容,并利用规则和质量评估模型过滤掉低质量数据。
(2)自动生成问答对:制定问题标准,基于优质知识内容,利用大语言模型(LLM)根据标准规定自动生成问答对。制定了大约9条严格的规则,包括:答案必须是唯一且确定的、答案不应随时间改变等。
(3)自动质量验证:LLM按照预设标准对生成的问答对进行初步筛选,剔除不符合要求的样本。
(4)结合工具验证:引入RAG和Agent,结合外部检索工具收集验证信息,指导LLM进一步准确评估答案的事实正确性。
(5)难度级别过滤:过滤掉过于简单的样本,增加数据集的难度,发现LLM普遍存在的知识边界。具体来说,如果所有四个模型都能正确回答一个问题,则该问题被认为太简单并被丢弃。
2、在质量控制阶段,我们引入了严格的人工验证流程:
(1)隐藏答案后,每条数据都交给两个独立的标注者进行标注。首先判断问题是否符合预定标准。不符合要求的问题将被淘汰。然后要求每个注释者根据权威来源(例如维基百科和百度百科)的相关信息填写答案,并且至少需要两个参考链接以确保答案可追溯。
(2)如果两个注释者的答案不一致,则由第三个注释者审核并最终确定答案。
(3)安排多名算法工程师进行多轮随机检查和反馈,同时不断细化标准。
在整个构建和标注过程中,最初生成了10000个问答对。经过难度评估和多轮验证,最终仅保留了约3000个高质量问答对,保证了数据集的高质量和严谨性。我们希望为评估LLM的事实正确性提供正确的指导。
2、评价指标
评价方法和指标直接遵循方法,主要包括以下四个指标:

三、评价清单
我们评估了17个闭源模型和24个开源模型,排名如下:

不同模型的结果。指标方面,(CO)、Not(NA)、(IN)和given(CGA)分别代表“回答正确率”、“不回答率”、“回答错误率”和“回答正确率”。主题上,(CC)、(HU)、、(ETAS)、生活、艺术,(LAC)、(SO)、(NS)分别代表“中国文化”、“人文社会科学”、“工程、 “技术与应用科学”、“生活、艺术与文化”、“社会”和“自然科学”。
总体来说,o1-表现最好,最近有几个专注于中文的闭源大型模型(例如-pro-32k和GLM-4-Plus)表现与o1-类似。从榜单表现来看,首先“mini”系列机型(如o1-mini、GPT-4o-mini)的表现明显不如其对应的大机型(如o1-) ,GPT-4o),这表明“迷你”系列在事实知识的保留方面表现出显着下降。其次,越大的型号通常表现越好,比如GPT、Qwen2.5、.5等系列。小模型通常在“未尝试(NA)”项上得分较高,例如o1-mini和.5-1.8B,其NA得分分别为20.5和31.2,远高于相应大模型的得分(例如0.5-20B的o1-12.2和0.5-20B的7.7)。另外,各个模型在不同主题上的表现存在明显差异,尤其是中文社区的大型模型(如-pro-32k、GLM-4-Plus、Qwen-Max、)在“中国文化”上明显更好(CC)”主题 相比 GPT 或 o1 模型,o1 在 ETAS 和 NS 等科学相关主题上具有显着优势。
4 实验结果
我们还探讨了热门研究主题,例如法律、模型校准、RAG 和对齐税(详情请参阅论文)。得出了一些富有洞察力的发现:
1. 较大的模型具有更好的校准性能
我们要求模型在回答问题时提供一个从0到100的置信度指数来衡量模型的校准程度,即模型对其答案的置信度。理想的校准模型应该具有与答案的实际准确性相匹配的置信度指数。实验结果表明,GPT-4o的标定效果优于GPT-4o-mini,而o1-的标定效果优于o1-mini。在Qwen2.5系列中,标定效果的顺序为Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,表明规模越大的模型标定性能越好。此外,对于所有评估的模型,当置信指数大于 50 时,它们的置信水平低于完美校准线,表明它们通常对答案的准确性过度自信。

2. O1提出的推理律对于基于事实的QA同样有效
我们研究了不同模型中增加的推理计算资源与答案准确性之间的关系。具体方法是随机选取50个样本,每个样本要求模型独立回答100次。随着推理次数的增加,通过 Best-of-N 方法计算模型的答案准确性。结果表明,随着推理次数的增加,所有模型的响应精度均提高并最终达到上限。这一现象与o1发布时提出的结论一致。

3.RAG仍然是快速提升模型能力的捷径
我们还探讨了检索增强生成(RAG)策略在提高法学硕士事实正确性方面的效果。我们基于 搜索 API 构建了 RAG 系统。结果表明,配置RAG后所有模型的准确率均得到显着提高。例如Qwen2.5-3B的性能提升了三倍以上。同时,配置RAG后模型之间的性能差异也显着减小。例如,带有 RAG 的 Qwen2.5-3B 与 Qwen2.5-72B 之间的 F 分数差异仅为 6.9%。这表明RAG可以显着缩小模型性能差距,让较小的模型在RAG的支持下实现高性能。因此,RAG仍然是增强LLM真实性的强有力且有效的捷径。

4、多数车型存在明显的“对齐税”问题
我们在评估集上比较和分析了预训练模型和对齐模型的性能。结果表明,尽管不同模型在后期训练后的性能存在差异,但大多数模型的性能明显下降。其中,该系列机型下降最为明显,F值-7B和-13B分别下降47%和28%。这反映出目前大多数大型语言模型的对齐训练在减轻幻觉方面仍然存在明显的不足,也凸显了评估集的价值。


评估集涵盖99个主题和领域,可以全面测试各个领域模型的知识水平,可以帮助各个领域的研究人员识别最适合其特定需求的模型。目前,o1-模型的综合性能最强,但评估结果显示在特定垂直领域许多其他模型的强大性能(具体参见论文和列表)。
最后,欢迎研究人员使用我们的评估集进行实验和研究。桃天集团算法技术-未来生活实验室团队将持续更新和维护数据集和评估清单,为华人社区的发展做出贡献。


