机器之心发布
2024年12月19日,致远研究院发布并解读了百余个国内外开源和商业闭源语言、视觉语言、图片、视频、语音语言大模型的综合专项评测结果。
与今年5月份的模型能力全方位考核相比,本次智源测评拓展、丰富、细化了任务解决能力的内涵,增加了数据处理、高级编程、工具调用等新的能力和任务;首次针对真实金融量化交易场景中的应用能力评估,衡量大型模型的收益优化和性能优化能力;首次探索基于模型辩论的比较评价方法,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 。
致远评测发现,2024年下半年大型模型的发展将更加注重综合能力提升和实际应用。多式联运模式发展迅速,涌现出许多新制造商、新模式。语言模型的发展相对放缓。在典型的开源生态中,除了持续致力于开源的国内外机构外,还涌现出新的开源贡献者。
多种模态评估综合列表
涵盖文本、语音、图像、视频的理解和生成

语言模型,对于一般中文场景下的开放式问答或生成任务,模型能力已经趋于饱和且稳定。但在复杂场景任务的表现上,国产头部语言模型与国际一流水平仍存在显着差距。
对语言模型的主观评价重点关注模型的汉语能力。结果显示,字节跳动-pro-32k-和百度ERNIE 4.0 Turbo排名第一和第二,o1--2024-09-12和-3-5--排名第三和第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型的客观评价中,o1-mini-2024-09-12、-1.5-pro-排名第一和第二,阿里巴巴Qwen-max-0919、-pro-32k-排名第三和第四,meta Llama- 3.3-70B-排名前五。

视觉语言多模态模型,虽然开源的模型架构是收敛的(语言塔+视觉塔),但是性能不同。其中,较好的开源模型在图像和文本理解任务上正在缩小与头部闭源模型的能力差距,而在长尾视觉知识和文本识别以及复杂的图文数据方面仍有改进空间分析能力。评测结果显示,GPT-4o-2024-11-20和-Pro--32k-领先于-3-5--,其次是阿里巴巴Qwen2-VL-72B-和-1.5-Pro。

图多模态模型,今年上半年参赛的模型普遍无法生成正确的中文文本,但本次参赛的头部模型具备生成中文文本的能力,但字符变形整体情况复杂场景很常见。对于常识或知识推理任务中,小于3的定量关系的性能有所提高,但大于3的定量关系仍然无法处理。涉及对中国文化和古诗词的理解的场景对模型来说是不小的挑战。

评测结果显示,腾讯镜像排名第一,字节跳动镜像v2.1和2.0分别排名第二和第三,其次是DALL·E 3和快手刻图。
文森特视频的多模态模型进一步提升了画面质量,更具动感,镜头语言更丰富,场景更流畅。但常见的情况是运动变形较大、无法理解物理规律、物体消失、闪烁、穿过模型等。评测结果显示,快手科灵1.5(高品质)、字节跳动梦想P2.0 pro、爱视科技V3、海螺AI、皮卡1.5位列前五。

语音语言模型得益于大型文本模型的进步,能力得到了很大的提升,覆盖面也更加全面。但在具体任务上它们与专家模型还存在一定的差距。总体而言,性能好、通用能力强的开源语音语言模型偏向少数。
专项评测结果显示,阿里巴巴Qwen2-Audio排名第一,香港中文大学&微软、清华大学&字节跳动分列第二、三名,Audio-、MIT、IBM LTU均进入前五名。

四大专项评价名单

多维度探索模型能力边界和应用潜力
此次评估,致远研究院再次与海淀区教师进修学校合作,编写了新的K12全年级、多学科试卷,进一步检验大模型与人类学生之间的能力差异。其中,答案非唯一的主观题仍由海淀老师撰写。自己在纸上做标记。得益于多模态能力的发展,该模式K12科目考试综合成绩较半年前提升12.86%,但与海淀学生平均水平仍有差距;在英语和历史文科考试题目的表现方面,它有改进的模型,已经超越了人类考生的平均分数;模型普遍具有“文学性强、推理性弱”的倾向。

大模型竞技场是致远研究院今年9月推出的面向用户开放的模型对战评测服务,反映用户对模型的喜好。目前覆盖国内外约50个大型模型,支持语言问答、多模态图文理解、文字图片、文字视频四大任务的定制化在线或离线盲测。
本次评测共有29个语言模型、16个多模态图像文本问答模型、7个图模型、14个视频模型参与评测。评估发现,用户对模型响应时间有更高的要求,并且倾向于对模型输出内容采用更加结构化和标准化的格式。

作为模型对战评测服务大模型场的延伸,致远研究院于今年10月推出了模型辩论平台,对模型的逻辑推理、观点理解、语言表达等核心能力进行深度评测,以识别模型的优缺点。语言模型能力的差异。 。

本次评估发现,大型模型普遍缺乏辩论框架意识,不具备以整体逻辑全面阐述辩论主题的能力;大模型在争论中仍存在“错觉问题”,论点经不起推敲;大模型更擅长反驳,并且每个模型表现突出的辩论维度都相似。在不同的辩论主题中,模型表现存在显着差异。评测结果显示,-3-5--、01万一-、o1--2024-09-12位列前三。

在本次评测中,致远研究院结合实际应用场景探索了一种新方法。通过评估模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成回撤收益策略代码的能力,可以开发量化交易典型场景的代码;在知识问答方面,模型之间整体差异较小,整体得分较高,但在实际的代码生成任务中,模型差异较大,整体能力较弱;头部模型能力接近初级量化交易者水平。
金融量化交易评测结果显示,深度搜索-聊天、GPT-4o-2024-08-06、-1.5-pro-排名前三。

致远评价体系的又一次迭代
覆盖全球800+开源和闭源模型

本次评估依托致远研究院于2023年6月推出的大模型评估平台,经过多次迭代,目前覆盖全球800多个开源和闭源模型,包括20多个任务和90多个评估数据集。超过 200 万个评估问题。
在评估方法和工具方面,致远研究院与全国10余所高校和机构合作,探索基于人工智能的辅助评估模型和灵活全面的多模态评估框架,构建具有挑战性的大模型新能力。评估集,包括与北京大学共建的幻觉评估集、与北京师范大学共建的CMMU多模态评估集、多语言跨模态评估集MG18、复杂代码评估集TACO等如长视频理解评估MLVU等,与北京大学联合打造的MLVU是目前全球最大的对话场景幻觉评估集,超过18000轮对话等超过 140,000 个答案。
为了避免数据集泄露和数据集饱和问题的风险,本次评测吸收了近期发布的数据集,并持续动态更新评测数据,替换了98%的题型,并增加了题型难度。

致远研究院副院长兼总工程师林永华在评测会上表示,评测体系始终坚持科学、权威、公平、公开的原则,通过技术方法平台不断创新,打造衡量标准用于测量模型能力并作为大型模型技术的基准。生态发展提供了启示。
2025年,评估体系的发展将进一步探索动态评估和多任务能力评估体系,以评估为标尺感知大模型的发展趋势。


