推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

中国大模型六小虎之一阶跃星辰，总评分位列全球第五、国产第一

日期：2024-11-21 来源：网络整理作者：二手钢材网浏览：405 评论：0

核心提示：通过拆解LiveBench榜单以及阶跃星辰的大语言模型Step-2，我们找到了答案。就是在这样一个颇具权威性和公平性的基准测试中，阶跃星辰的step-2-16k-202411位列全球第五，也是榜单前十中唯一一个国产大模型。三、“最低调的学生”跑出高分，国产大模型未来可期

聪明的东西

作者｜依婷

编辑｜莫英

智东西11月20日报道，LLM基准项目官网最新榜单显示，中国大型模型“六小虎”之一的Step Star的大型语言模型step-2-16k-位列全球第五和国产的总分一样。第一的。同时，在六类任务中，step-2-16k-的指令跟随（IF）得分排名第一，高于o1--2024-09-12。

在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_

▲总收视率榜单前15名

该项目由.AI牵头，图灵奖获得者、meta首席AI科学家Yann Lecun参与其中。由于其每月更新的题目和客观的评分系统，被业界称为“最难忽悠的LLM基准”。

在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一__在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一

挑战成功的step-2-16k-是自主研发的万亿参数MoE大语言模型。在设计Step-2 MoE架构时，Step Star放弃了（向上复用）路径，选择从头开始训练，通过部分专家的参数共享和异构专家设计来创新MoE架构设计。今年3月，Step-2预览版发布，成为国内首个由初创公司发布的万亿参数MoE大语言模型。

目前，步星已经发布了Step系列模型“全家桶”，包括万亿MoE大语言模型Step-2、多模态理解大模型Step-1.5V、图像生成模型Step-1X等。如C端应用“跳跃题”和“泡泡鸭”。

基准测试是大模型的“高考”，测试成绩很大程度上影响大模型的应用和商业价值。如今，基准测试有很多种。为什么2019年的评分结果如此具有参考价值？这个行业日新月异。在众多国产大型车型中，步星为何能够闯入世界级赛场，与人同台竞技？通过拆解Step Stars这个大语言模型的list和Step-2，我们找到了答案。

1、国内大车型与同台竞技

今年6月中旬，该项目正式发布。项目组在创始博客中对其进行了定义——“具有挑战性、无污染的LLM基准测试（A、-Free LLM）”。项目参与者名单中，列出了杨立坤、纽约大学、英伟达、南加州大学等在AI领域具有相当话语权和关注度的实体。

_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一

▲官方博客

除了众多知名参与者之外，更受业界关注的特点是，在设计时考虑了测试集污染问题，尽可能保证评分结果客观真实。具体来说：

1. 他们根据最新发布的数据集、arXiv论文、新闻报道和IMDb电影概述来设计问题，并每月更新题库，以限制潜在的污染并防止大型模型在回答时作弊；

2.保证每一道题都有可验证、客观、真实的答案，并能在不通过LLM评分的情况下准确、自动地对疑难问题进行评分，避免陷入LLM的判断陷阱，如对自己答案的偏见、答案错误等。判断;判断

3.目前包含推理、编码、数学、数据分析、语言理解、指令跟随等6大类18项任务，随着时间的推移，还会推出更新、难度更高的任务。

简而言之，每个月用一个新的题库对各个主要模型进行测试，无需人工或主要模型参与评分，即可进行更准确、客观的排名。

_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一

正是在这样权威、公正的基准测试中，步星的step-2-16k-位列全球第五，也是唯一进入前十的国产大型车型。

榜单第一到第四位分别是o1--2024-09-12、-3-5--、-3-5--、o1-mini-2024-09-12，由两位美国AI独立人士排名公司。角兽占据，随后是step-2-16k-的Step Stars；谷歌的-exp-1114排名第六。

从任务类别来看，step-2-16k在指令跟随（IF，）方面排名第一，得分为86.57。排名第二的是谷歌的大型型号——1.5-flash-002，得分为84.55。踏入星辰之后。

据英国《卫报》最新报道，“指令遵循”类别包括四个子任务，即解释、简化、总结或遵循一个或多个指令，例如字数限制或在答案中添加特定元素。生成故事。 step-2-16k-该类别的高分表明它对语言生成中的细节有很强的控制力，可以更好地理解和遵循人类指令。

2、放弃捷径，从零开始，Step-2创新MoE架构

Step Star Step-2的高排名源于团队在算法架构上的创新。

在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一__在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一

今年3月，Step-2预览版发布，成为国内首个由初创公司发布的万亿参数模型； 7月，世界人工智能大会上，Step-2正式发布。当时，它被用于数理逻辑、编程、世界知识和指令。在追踪等方面，体感体验接近GPT-4。

具体来说，Step-2具有出色的理解能力，可以从上下文中推断用户的需求，在模糊指令中准确捕捉用户的真实意图，并提供更准确和个性化的响应；

在知识覆盖度和深度上，Step-2不仅可以处理常见领域知识，还可以深入理解和回答特定领域或边缘分布的复杂问题；

在生成高质量、富有创意的文本内容的同时，Step-2具有出色的细节控制能力，可以根据用户指令精确调整和优化文本。比如创作古诗词时，字数、韵律、韵律、意境都可以准确把握。

在研发阶段，Step Star在算法架构上的创新成为Step-2的法宝。

目前，训练MoE模型的方式主要有两种——一种是基于现有模型开始训练（向上复用），另一种是从头开始训练。前者对算力要求低，训练效率高，但上限较低。例如，基于复制的教育部模式很容易造成专家严重同质化；后者训练难度较高，但可以获得较高的模型上限。

在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一_

踏星选择了第二条也是更困难的道路。

在设计Step-2 MoE架构时，该公司团队从头开始完全独立开发和训练模型。它通过部分专家共享参数、异构化专家设计等方式创新了MoE架构设计，使Step-2中的每个“专家模型”都得到充分训练。不仅Step-2的参数总数达到了万亿级别，而且每次训练或推理激活的参数数量也超过了市场上大多数Dense模型。

与Step-1千亿参数的大型语言模型相比，Step-2的综合能力提升了近50%。目前，Step-2已接入步星旗下效率工具“阅文”。开发者可以在Step Star开放平台上使用Step-2，并通过API访问。

3、“最低调的学生”取得高分，国产大尺寸车型未来可期

Step Star成立于2023年4月，但直到2024年3月才以Step系列通用大型车型正式面向公众。就像是班里最低调的学生。他平日里努力学习，考试时以高分出名。

目前，Step Star已发布Step系列通用大模型矩阵，涵盖从千亿到万亿参数、从语言到多模态、从理解到生成的综合能力。

模型更新迭代的同时，产品应用也没有落下。今年9月，在多模态大模型Step-1.5V的支持下，阅文App推出了“照片提问”，不仅可以识别图片中的物体并翻译成英文，还可以帮助健身人士计算卡路里饭前。由于这项功能太受欢迎，网上有传言称10月前20天就转账了1500万元，但这一传言随后被辟谣。

目前，全球人工智能领域规模化的国产模型仍屈指可数，中国的人工智能独角兽仍有许多悬而未决的问题。的技术路径或许可以为初创公司提供参考样本。

标签： 大模型阶跃星辰全球第五国产第一

打赏

更多>同类资讯

0 条相关评论

• 河北工信厅等部门推举措，助力钢铁产业从原料向	• 河北现代化钢铁产业重点工作清单:推动钢铁从原
• 钢材钢材南钢与华为联手启动钢铁大模型百日会	• 2024中国国际数字经济博览会：河北太行钢铁大模
• 湖南钢铁集团等联合发布钢铁行业盘古大模型，解	• 钢铁行业数字化创新：探索工业大模型系统如何推
• 2024科技风云榜：大模型与AI技术在中高端招聘市	• 2024科技风云榜：新质科技·智向未来，大模型技
• 生数科技发布Vidu 2.0视频大模型：10秒生成速度	• Meta宣布裁员5%以增效，周鸿祎首部AI短剧春节上

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

中国大模型六小虎之一阶跃星辰，总评分位列全球第五、国产第一

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司