

根据评估结果,对于一般中文场景下的开放式问答或生成任务,语言模型能力已经趋于饱和且稳定。但国内头语言模型在复杂场景任务的表现上与国际一流水平仍存在显着差距。中文能力理解方面,字节跳动-pro-32k-、百度ERNIE 4.0 Turbo分列第一、第二,o1--2024-09-12、-3-5--分列第三、第四,阿里巴巴Qwen-Max-0919排名第五。


在视觉语言多模态模型能力评估结果中,一些较好的开源模型正在缩小与头部闭源模型在图像和文本理解任务上的能力差距,而长尾视觉知识和文本识别以及复杂图像和文本数据分析能力上还有提升的空间。评估显示,GPT-4o-2024-11-20和-Pro--32k-领先于-3-5--,其次是阿里巴巴Qwen2-VL-72B-和-1.5-Pro。

此外,今年上半年多模态模型参与模型普遍无法生成正确的中文文本。不过,这次参赛的头部模型具有生成中文文本的能力。但复杂场景中人物整体变形的情况是常见的。对于常识或基于知识的推理任务中,小于3的定量关系的性能有所提高,但大于3的定量关系仍然无法处理。评测结果显示,腾讯镜像排名第一,字节跳动镜像v2.1和2.0分别排名第二和第三,其次是DALL·E 3和快手刻图。
Video多模态模型中,画质进一步提升,动态更强,镜头语言更丰富,特殊场景更流畅。然而,存在广泛的运动变形、无法理解物理定律以及物体消失、闪烁和穿过模型的情况。评测结果显示,快手科灵1.5(高品质)、字节跳动Dream P2.0 pro、爱视科技V3、海螺AI、皮卡1.5位列前五。

据介绍,本次评测依托致远研究院于2023年6月推出的大模型评测平台,经过多次迭代,目前覆盖全球800多个开源和闭源模型,包括20多个任务、90多个任务。评价。数据集,超过200万个评估问题。 (文猛)


海量信息、精准解读,尽在新浪财经APP


