2024年智源研究院发布国内外大模型评测结果:多模态模型崛起,语言模型发展放缓

   日期:2024-12-21     来源:网络整理    作者:二手钢材网    浏览:232    评论:0    
核心提示:本次评测依托智源研究院的大模型评测平台FlagEval。智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。

此外,国内头部语言模型与国际一流水平仍存在显着差距。对语言模型的主观评价重点关注模型的汉语能力。结果显示,字节跳动-pro-32k-和百度ERNIE 4.0 Turbo排名第一和第二,o1--2024-09-12和-3-5--排名第三和第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型的客观评价中,o1-mini-2024-09-12、-1.5-pro-排名第一和第二,阿里巴巴 Qwen-max-0919、字节跳动-pro-32k-排名第三和第四,meta Llama-3.3 -70B-排名前五。

模型性能评估_模型评测网_

模型性能评估_模型评测网_

视觉语言多模态模型,虽然开源的模型架构是收敛的(语言塔+视觉塔),但是性能不同。其中,较好的开源模型在图像和文本理解任务上正在缩小与头部闭源模型的能力差距,而在长尾视觉知识和文本识别以及复杂的图文数据方面仍有改进空间分析能力。评测结果显示,GPT-4o-2024-11-20和-Pro--32k-领先于-3-5--,其次是阿里巴巴Qwen2-VL-72B-和-1.5-Pro。

图多模态模型,今年上半年参赛的模型普遍无法生成正确的中文文本,但本次参赛的头部模型具备生成中文文本的能力,但字符变形整体情况复杂场景很常见。对于常识或知识推理任务来说,小于3的数量关系任务性能有所提升,但大于3的数量关系仍然无法处理。涉及对中国文化和古诗词的理解的场景对模型来说是不小的挑战。评测结果显示,腾讯镜像排名第一,字节跳动镜像v2.1和2.0分别排名第二和第三,其次是DALL·E 3和快手刻图。

模型性能评估_模型评测网_

文森特视频的多模态模型进一步提升了图像质量,更具动感,镜头语言更丰富,场景更流畅。但常见的是大规模运动变形、无法理解物理规律、物体消失、闪现、穿过模型的情况。评测结果显示,快手科灵1.5(高品质)、字节跳动Dream P2.0 pro、爱视科技V3、海螺AI、皮卡1.5位列前五。

语音语言模型得益于大型文本模型的进步,在能力上有了巨大的提升,覆盖面也更加全面。但在具体任务上它们与专家模型还存在一定的差距。总体而言,性能好、通用能力强的开源语音语言模型偏向少数。专项评测结果显示,阿里巴巴Qwen2-Audio排名第一,香港中文大学&微软、清华大学&字节跳动分列第二、三名,Audio-、MIT、IBM LTU均进入前五名。

模型性能评估__模型评测网

针对本次评估,致远研究院与海淀区师范学校联合编写了新的K12全年级、多学科试卷,进一步检验大模型与人类学生的能力差异。其中,非唯一答案的主观题仍由海淀老师亲自解答。在纸上做标记。得益于多模态能力的发展,该模式K12科目考试综合成绩较半年前提升12.86%,但与海淀学生平均水平仍有差距;在英语和历史文科试题的表现方面,它有所提高,一些模型已经超越了人类考生的平均分数;模型一般倾向于“文学性较强,科学性较弱”。

_模型评测网_模型性能评估

大模型竞技场是向用户开放的模型对战评测服务,反映用户对模型的喜好。本次评测共有29个语言模型、16个图文问答多模态模型、7个图模型、14个视频模型参与评测。评估发现,用户对模型响应时间有更高的要求,并且倾向于对模型输出内容采用更加结构化和标准化的格式。

模型性能评估__模型评测网

模型辩论平台可以对模型的逻辑推理、观点理解、语言表达等核心能力进行深入评估,识别语言模型能力的差异。本次评估发现,大型模型普遍缺乏辩论框架意识,不具备以整体逻辑全面阐述辩论主题的能力;大模型在争论中仍存在“错觉问题”,论点经不起推敲;大模型更擅长反驳,并且各个模型表现突出的辩论维度相似,但在不同的辩论主题中,模型表现存在显着差异。评测结果显示,-3-5--、01万一-、o1--2024-09-12位列前三。

此次还评估了模型的量化代码实现能力,探讨了模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成回撤收益策略代码的能力,可以开发量化交易典型场景的代码;在知识问答方面,模型之间整体差异较小,整体得分较高,但在实际的代码生成任务中,模型差异较大,整体能力较弱;头部模型能力接近初级量化交易者水平。金融量化交易评测结果显示,深度搜索-聊天、GPT-4o-2024-08-06、-1.5-pro-位列前三。

致远秋冬评测会结束后,致远研究院副院长兼总工程师林永华接受了凤凰网等媒体采访。对于评估结果显示出当前语言模型发展放缓的具体原因,林永华表示,现在我们已经进入了语言模型的深水领域,深水领域的创新将是更困难。最好的语言模型已经开发出了某些基本功能。实现显着增长并不是特别容易。我们不能仅仅使用更大的参数或更多的数据,而是需要更深入的创新来改进。因此,您会看到更新和更大的语言模型出现的频率较低。

_模型评测网_模型性能评估

对于大语言模型未来的发展方向以及语言模型未来发展所需的深刻变革,林永华认为,从全球模型的发展来看,模型规模已经出现两极分化。从Face 11月份下载量最高的机型来看,一类是更大更强的密集型机型,比如.1的405B,其单月全球下载量达到7~800万,是其中之一。最高的。但剩下的高下载量很多都是7B以下的小型号,所以可以看到明显的两极分化。

对于未来大车型的变化,林永华表示,2025年,预计多模态车型将层出不穷,包括开源车型,还会有更多新的多模态车型出现。例如,在K12学科测试中,图文模态提高了多模态模型对真人试卷的理解和推理能力。具身智能还依赖于多模态模型来理解和感知物理世界。对多式联运车型的需求正在蓬勃发展。但与很多语言模型不同的是,基础能力还没有达到一定水平。多模态模型在基础能力上还有明显的提升空间。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2