国产大模型DeepSeek-V3发布:671B MoE技术引领人工智能新纪元

   日期:2024-12-30     来源:网络整理    作者:二手钢材网    浏览:339    评论:0    
核心提示:12月26日消息,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。

据12月26日消息,国内大模型推出了强大的混合专家(-of-,MoE)语言模型-V3。主要技术迭代是671B个MoE,37B个激活参数,在14.8万亿个优质代币上进行预训练。

AI圈表示,“圣诞节真的来了”。

ai外呼_Al健康助手_

翻译翻译,首先看训练时间,正如发布报告中所指出的,“尽管性能出色,但-V3的完整训练只需要2.788M H800 GPU小时”。

例如,如果我们对 Llama 3 系列模型进行基准测试,其计算预算为 3930 万 H100 GPU 小时,可以训练 V3 大约 15 次。

_ai外呼_Al健康助手

从成本角度来看,如果我们假设 H800 GPU 租金为每 GPU 小时 2 美元,那么 -V3 的总训练成本仅为 557.6 万美元。

不仅如此,在最新的技术报告中,在与多个型号-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和-3.5--1022点运行后,- V3 在多项性能基准测试中表现良好。

它在 、 、 、 三个维度上遥遥领先,具有极强的数学和编程能力,一度超越了两个领先的闭源模型GPT-4o和3.5。

虽然他在一些语言理解和软件工程任务上略显逊色,但他也是前2名的选手。

_Al健康助手_ai外呼

自称,这是由于采用了多头(MLA)和MoE架构来实现高效的推理和经济高效的训练。

还引入了辅助无损负载平衡策略和多令牌预测训练目标来提高模型性能。同时,当在 14.8 万亿个优质代币上进行预训练时,通过监督微调和强化学习阶段,其潜力得到充分发挥。

综合评估表明-V3优于其他开源模型,性能接近领先的闭源模型。而且训练过程非常稳定,不会遇到不可恢复的损失峰值或回滚。相反,在同一天,它再次下跌,修复方案尚未确定。

meta AI研究科学家田元东对X上-V3的“极其有限的预算”和“强劲的性能”深感惊讶。

_Al健康助手_ai外呼

作为Glean和V3创始团队成员的VC Deedy甚至称赞-V3是“世界上最好的开源大型模型”。

Al健康助手_ai外呼_

-V3的基础模型是在以英文和中文为主的多语言语料库上预训练的,因此其性能主要是在以英文和中文为主的一系列基准测试上进行评估,同时也在多语言基准测试上进行评估测试。 。基于其内部集成的HAI-LLM框架,具体跑分如下:

Al健康助手_ai外呼_

如上图,可以看到V3在英语、编程、数学、中文、多语言维度的表现。

英语 (): - V3 base 在大多数测试中表现最佳,例如 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-(EM) 、(EM)、PIQA(EM)、(EM)、(EM) 和 (EM) 测试。在 Pile-test(BPB) 基准测试中,-V3 base 得分为 0.548,也略高于其他模型。

代码:-V3 base 在 (Pass@1)、MBPP(Pass@1)、-base(Pass@1)、-I(EM) 和 -O(EM) 等测试中表现良好。

数学(Math):-V3 base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等测试中表现良好。

中文():-V3 base在(EM)、C-eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM)和CCPM(EM)等测试中表现良好。

(): - V3 base 在 MMMLU-non-(EM) 测试中表现最佳。

由于“大手笔”开源,Open AI被网友暗示横向比较,给人一种被推的感觉。

_ai外呼_Al健康助手

不少玩家也在X上分享了自己的经验,认为-V3很“聪明”,并对团队表示极大的敬意。

Al健康助手_ai外呼_

是一家长期专注于高级大语言模型(LLM)及相关技术开发的创新型科技公司。它诞生于知名私募巨头欢放量化。作为大厂之外唯一一家储备数万颗A100芯片的公司,环方量化为技术研发提供了强大的硬件支撑。

早通过Coder等开源大型模型,就展现了其在人工智能技术领域的实力。 V2车型的发布提供了前所未有的性价比,推动了中国大型车型价格战的发展,并以其创新的MLA架构和结构受到了业界的广泛关注。

被硅谷誉为“来自东方的神秘力量”,其V2模型论文被认为是当时年度最佳论文。

半年后,以V3再次亮相,用行动证明中国大型创业者也可以加入这场全球科技创新人工智能大赛。

责任编辑:若风

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2