DeepSeek-v3大模型震撼AI圈:1/11算力超越Llama 3,雷军千万年薪挖角研究员罗福莉

   日期:2025-01-06     来源:网络整理    作者:二手钢材网    浏览:429    评论:0    
核心提示:这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?应届生、在读生,特别是来自清北的应届生在其中非常活跃。同样的用人不看经验,本科生、辍学生只要有能力照样招进来。同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

-v3大模型横空出世,它训练出了以1/11算力超越Llama 3的开源模型,震惊了整个AI圈。

紧接着,“雷军开出千万年薪挖走研究员罗福利”的传闻也引发了人们对人才的关注。

现在不仅是科技圈,整个互联网都好奇。甚至有人在小红书上发帖询问,这是一个什么样的团队?

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

国际上,有人将创始人梁文峰的采访翻译成英文并添加注释,试图寻找这家公司崛起的线索。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

量子比特整理了各种资料,发现该团队最大的特点就是年轻。

其中应届毕业生和在校学生尤其是北清学生非常活跃。

他们中的一些人将在2024年从事研究,而他们新鲜热门的博士论文刚刚获奖。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

他们有的参与了从LLM v1到-v3的整个过程,有的只是实践了一段时间并取得了重要成果。

MLA 新注意力、GRPO 强化学习对齐算法等关键创新的提出者几乎都是年轻人。

核心成员揭晓

2024年5月发布的-V2,是导致这家大型模型公司破圈的关键一环。

最重要的创新是新型注意力的提出。在该架构的基础上,采用MLA(Multi-head)来替代传统的多头注意力,大大减少了计算量和推理内存。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

贡献者中,高华佐和曾旺丁在MLA架构上做出了关键创新。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

高华佐很低调,目前只知道他毕业于北京大学物理系。

此外,在“六大典范企业家”之一的步星的专利信息中也可以看到这个名字。目前尚不能确定是否为同一人。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

曾旺丁来自北京工业大学,研究生导师是北京工业大学人工智能与互联网搜索教学研究中心主任张宏刚。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

-V2工作还涉及到另一个关键成果——GRPO。

-V2发布前三个月,-Math问世,其中提出了GRPO(集团)。

GRPO 是 PPO RL 算法的一种变体,它放弃了模型,而是根据群体分数进行估计,从而显着减少了对训练资源的需求。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

GRPO受到了业界的广泛关注,国内另一大型开源模型阿里巴巴Qwen 2.5的技术报告也透露了GRPO的用途。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

核心作者三位是在实习期间完成的工作。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

核心作者之一邵志宏是清华大学交互式人工智能(CoAI)课题组博士生,师从黄敏烈教授。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

他的研究领域包括自然语言处理和深度学习,他特别感兴趣的是如何构建一个强大且可扩展的人工智能系统,能够利用多种技能来整合异构信息并准确回答各种复杂问题。自然语言问题。

邵志宏此前也曾在微软研究院工作。

之后他还参与了-、-Coder-v2、-R1等项目。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

另一位核心作者朱启豪是北京大学计算机学院软件研究所2024届博士毕业生。在熊英飞副教授和张璐教授的指导下,研究方向为深度代码学习。

据北京大学计算机学院官方介绍,朱启豪已发表CCF-A论文16篇。曾获得ACM杰出论文奖一次,并被ASE和ESEC/FSE提名一次。同年,一篇论文进入ESEC/FSE会议被引次数前三名。

在团队中,朱启豪还基于他的博士论文工作领导了-Coder-V1的开发。

博士论文《语言定义感知深度代码学习技术及应用》也入选软件工程专业委员会博士论文奖励计划。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

来源:北京大学计算机学院公众号

还有一位核心作者也是来自北京大学。

王培毅,北京大学博士生,导师为北京大学计算语言学重点实验室隋志芳教授。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

除了-V2 MLA和GRPO这两项关键突破成果外,值得一提的是,还有一些成员是从v1到v3加入的。

其中代表人物之一是2024年毕业于北京大学计算机学院计算语言研究所博士学位的戴大代,他的导师也是隋志芳教授。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_

△来源:北京大学计算机学院公众号

黛黛取得了许多学术成果。曾获得EMNLP 2023最佳长论文奖和CCL 2021最佳中文论文奖。在重大顶级会议上发表学术论文20余篇。

2024年,中国中文信息学会“博士论文奖励计划”共遴选大陆高校博士论文10篇,其中包括他的《预训练语言模型知识记忆能力增强机制分析及关键技术研究》 ”。

和北京大学元培学院的王丙轩。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

王秉轩来自山东烟台,2017年进入北京大学。

硕士毕业后,他加入并参与了从LLM v1开始的一系列重要工作。

清华大学的代表人物是赵成钢。

赵成刚曾是衡水中学信息学竞赛班成员,CCF银牌得主。

随后,赵成钢考入清华大学,并在大二时成为清华学生超算团队的正式成员。曾三次获得世界大学生超级计算大赛冠军。

赵成刚担任训练/推理基础设施工程师,拥有 实习经历。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

△来源:清华新闻网

这是一个什么样的团队?

这些鲜活的个体足以引起人们的敬佩。

但这还不足以回答最初的问题,这是一个什么样的团队?有什么样的组织架构?

答案或许要从创始人梁文峰身上寻找。

早在2023年5月,刚刚宣布要做大模特、结果尚未出炉时,梁文峰在接受36氪《暗流》采访时就透露了招募标准。

看能力,不看经验。我们的核心技术岗位基本都是应届生和毕业一两年的人。

从近一年来发表的论文贡献列表也可以看出,确实如此。目前在读博士、应届毕业生、毕业一两年前的成员占了很大一部分。

就连团队层面也偏向年轻人,主要是4-6年前毕业的人。

例如,带队后培训团队的吴宇就毕业于北京航空航天大学,获得博士学位。 2019年参与微软MSRA的小冰和项目。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

博士期间,马午接受了北京航空航天大学李周军教授和微软亚洲研究院前副院长周明博士的联合培养。

他的半生郭大亚,由中山大学希尔教授和MSRA周明博士联合培养,于2023年获得博士学位。

2024年7月加入,主要参与一系列数学和代码大模型工作。

郭大牙学生时代还有一件事。在 MSRA 本科实习期间,他在一年内发表了两篇顶级会议论文。他笑称“入学第三天,就完成了中大博士生的毕业要求”。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

除了团队成员年轻化之外,国内AI公司的一个显着特点是非常重视模型算法和硬件工程的配合。

v3论文一共有200位作者,并非所有人都负责AI算法或数据。

有这样一群人,从早期的LLM v1到v3一直在参与。他们更专注于算力部分,负责优化硬件。

他们以AI之名发表论文《Fire-Flyer AI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

Fire-Flyer是欢放AI打造的 2万卡集群。它采用 A100 GPU,但与官方的DGX-A100服务器相比具有成本和能耗优势。

这个团队里有的人曾在工作或实习过,有的人来自同样在杭州的阿里云,还有很多人是从欢方AI借调或者干脆调动参与各个大型模型工作。

如此强调软硬件协作的结果是用 Llama 3 405B 1/11 的计算能力训练出更高性能的 -v3。

_全网都在扒的DeepSeek团队,是清北应届生撑起一片天_全网都在扒的DeepSeek团队,是清北应届生撑起一片天

最后我们还发现开源项目中有一个特殊的存在,它不是语言模型相关的工作,而是与3D生成相关的工作。

该成果是清华大学博士生孙景祥在实习期间与导师刘业斌等成员合作完成的。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

另一位取得如此重要成果的实习生是中山大学逻辑学专业的辛华建。

实习期间,他参与了利用大型模型证明数学定理,目前正在爱丁堡大学攻读博士学位。

全网都在扒的DeepSeek团队,是清北应届生撑起一片天__全网都在扒的DeepSeek团队,是清北应届生撑起一片天

看完这些例子,再回到梁文峰的采访,我们或许能够更好地理解这个团队的运作架构。

没有预设的分工,而是自然的分工。

转卡、转人无上限。每个人都可以随时调用训练集群。只要几个人感兴趣,就可以开始一个项目。

当一个想法显示出潜力时,资源就会从上到下进行分配。

这不免让人想起AI行业中另一股不可忽视的力量,没错。

同样的,招聘人员时也不考虑经验。本科生和退学生只要有能力还是会招收的。

同样的,新人、应届毕业生、2000年后出生的人都可以调动资源从头开始研究Sora。

沿着同一个潜力方向,整个公司从高层开始进行设计布局和资源推广。

,可能是组织形式最相似的中国AI公司。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2