2024年大模型评测结果揭晓:字节跳动AI能力领先,百度与阿里巴巴表现优异

   日期:2024-12-23     来源:网络整理    作者:二手钢材网    浏览:183    评论:0    
核心提示:多项评测结果中,字节跳动多项AI能力领先,阿里巴巴、百度等大厂派AI均取得优异表现。据介绍,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

_字节跳动科技_字节跳动科技有限公司

字节跳动科技__字节跳动科技有限公司

根据评估结果,对于一般中文场景下的开放式问答或生成任务,语言模型能力已经趋于饱和且稳定。但国内头语言模型在复杂场景任务的表现上与国际一流水平仍存在显着差距。中文能力理解方面,字节跳动-pro-32k-、百度ERNIE 4.0 Turbo分列第一、第二,o1--2024-09-12、-3-5--分列第三、第四,阿里巴巴Qwen-Max-0919排名第五。

_字节跳动科技_字节跳动科技有限公司

字节跳动科技有限公司_字节跳动科技_

在视觉语言多模态模型能力评估结果中,一些较好的开源模型正在缩小与头部闭源模型在图像和文本理解任务上的能力差距,而长尾视觉知识和文本识别以及复杂图像和文本数据分析能力上还有提升的空间。评估显示,GPT-4o-2024-11-20和-Pro--32k-领先于-3-5--,其次是阿里巴巴Qwen2-VL-72B-和-1.5-Pro。

字节跳动科技_字节跳动科技有限公司_

此外,今年上半年多模态模型参与模型普遍无法生成正确的中文文本。不过,这次参赛的头部模型具有生成中文文本的能力。但复杂场景中人物整体变形的情况是常见的。对于常识或基于知识的推理任务中,小于3的定量关系的性能有所提高,但大于3的定量关系仍然无法处理。评测结果显示,腾讯镜像排名第一,字节跳动镜像v2.1和2.0分别排名第二和第三,其次是DALL·E 3和快手刻图。

Video多模态模型中,画质进一步提升,动态更强,镜头语言更丰富,特殊场景更流畅。然而,存在广泛的运动变形、无法理解物理定律以及物体消失、闪烁和穿过模型的情况。评测结果显示,快手科灵1.5(高品质)、字节跳动Dream P2.0 pro、爱视科技V3、海螺AI、皮卡1.5位列前五。

字节跳动科技__字节跳动科技有限公司

据介绍,本次评测依托致远研究院于2023年6月推出的大模型评测平台,经过多次迭代,目前覆盖全球800多个开源和闭源模型,包括20多个任务、90多个任务。评价。数据集,超过200万个评估问题。 (文猛)

字节跳动科技_字节跳动科技有限公司_

字节跳动科技__字节跳动科技有限公司

海量信息、精准解读,尽在新浪财经APP

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2