
平时他很安静,但一出门街上就爆发了
国际权威榜单官网近日发布了最新的车型能力榜单。步星科技自主研发的大规模万亿参数语言模型Step-2位列国内大规模基础模型排行榜第一。结果接近o1-mini-2024-09-12,超过gpt-4o-2024-08。 -06、-1.5-pro-002等国际主流机型是唯一进入榜单前十的大型中文机型,排名全球第五。
虽然大机型的评测清单已经泛滥成灾,但它们确实让人大有可为。
它是由图灵奖获得者、meta首席AI科学家Yann LeCun联合.AI、纽约大学等机构推出的大型模型评估基准。模型根据复杂性的多个维度进行评估,包括数学、推理、编程、语言理解、指令遵循和数据分析。名字中之所以有“live”,是因为这个列表使用了新颖的数据源,并且每月更新一次,通过预训练和微调消除了大型模型作弊的可能性。也被业界誉为“全球首个非可玩的LLM标杆”,官网明确注明“A,-Free LLM”。
简单来说,经常批评当今大规模模型技术路线的杨立坤,带头创建了一个对上榜作弊行为极为警惕的大规模模型评测基准——而且就是这样一个非常 list,Step-2 其中,IF(命令遵从)获得第一名。


根据评估基准的论文,评估团队在 IF 测试中向模型提供了《卫报》的一篇文章,要求模型遵循多个随机选择的指令,同时要求模型完成以下一项:与本文相关的四个任务。一:释义、简化、故事生成和总结。然后根据任务遵守指示的程度对任务进行评分。评测结果是Step-2平均得分为86.57,-1.5-flash-002得分为84.55,而这两款之后仅有两款超过80分的型号,meta-llama-3.1-70b--turbo以79.08分紧随其后。后来,以推理能力着称的o1--2024-09-12得到了77.72分。
从测试结果来看,Step-2目前在命令遵从能力方面超越了国内外所有大型语言模型。
01
强大的Step-2万亿参数模型
说Step-2突然出现可能并不准确。

Step Star今年3月发布了Step-2语言大模型的预览版,这是当时国内创业公司发布的第一个万亿参数大模型。在接下来的几个月里,Step Star快速迭代了Step-2,并在2024年WAIC(世界人工智能大会)期间发布了该模型的正式版本。当时Step-2是数理逻辑、编程、国文知识。 、英语知识、命令跟随等体感方面已经全面逼近GPT-4。目前步星C端智能助手“阅文”已接入Step-2语言模型,在阅文App和阅文网页均可体验。
但就增长率而言,Step-2用了四个月的时间才赶上了GPT-4几乎相同的水平,又用了四个月的时间才超越了-1.5和GPT-o1的部分能力。速度确实很快。 。
但这并不太令人惊讶。由于特殊的MoE架构,Step-2从一开始就被视为具有巨大增长潜力的“高潜力”基础模型。
在大规模语言模型(LLM)的发展过程中,MoE(MoE)架构因其独特的优势而受到越来越多的关注。该架构通过选择性地激活部分专家网络来提高模型性能,同时保持高计算效率。目前,训练MoE模型的策略主要有两种:一是基于现有模型进行训练(向上复用),二是从头开始训练。
训练是使用现有模型进行训练的方法。其优点是需要的计算资源少,训练效率高。由于可以重用现有模型参数,因此训练过程更快。该方法适用于资源有限时的快速模型开发和验证。但训练的缺点是模型的性能上限较低。由于它是基于现有模型的副本,专家网络可能会遇到同质化问题,即多个专家学习相似的特征,限制了模型的多样性和最终性能。
相比之下,完全从头开始构建和训练MoE模型面临着更高的训练难度和更大的资源投入,但同时可以带来更高的模型性能上限。这种方法允许开发人员设计更复杂和多样化的专家网络,让每个专家网络学习更多独特和专业的功能。同时,还提供了更大的灵活性,开发者可以根据具体需求对模型架构进行精细调整和优化。
市面上所谓的MoE大多是前者,而Step Star团队在设计Step-2 MoE架构时选择了后者。
这也意味着Step-2为每次训练或推理激活的参数数量超过了市场上大多数Dense模型。这也给了Step-2另一个更让外界印象深刻的标签——万亿参数模型。参数越大的语言模型通常意味着更好的交付结果,特别是在指令遵循、内容创建和语义理解方面。
02
跨越式进化的阶梯星
阶跃星的名字来源于“阶跃函数”。
阶跃函数(Step)是一种分段常数函数,其特点是在某些特定点处发生突变,即函数值在这些点处突然从一个常数值跳跃到另一个常数值。这类函数通常用来描述系统中的一些瞬时变化或状态切换。
在神经网络中,阶跃函数可以用作激活函数,帮助模型在输入达到某个阈值时激活输出。这种激活过程可以被视为一种超线性增长,因为输出在某个点突然变得显着。
《踏星》也带有类似的跳跃感和超线性感。这家大模创业公司并不具有喧闹的性质,每一次回归公众视野,都意味着能力的重大提升。
除了大语言模型Step-2之外,Step Star也很早就在Step系列通用大模型家族中展开了多模态探索。 2024年3月,Step Star推出了Step-1V的第一个版本,这是一个千亿参数的多模态大模型。 7月WAIC期间,步星一口气推出了三款Step系列通用大型车型。新的。除了正式版的Step-2万亿参数语言模型外,还包括迭代版的Step-1V、Step-1.5V多模态理解模型、Step-1X图像生成模型。
半年时间,步星从万亿参数的大型语言模型出发,快速完成了语言模型和多模态模型的同步推进。
在Step-2万亿参数大模型的加持下,Step-1.5V多模态模型全面提升了图像感知和理解能力,并具有出色的视频理解能力。它可以准确识别视频中的物体、人物和环境,了解视频的整体氛围和人物情绪。此外,Step-1.5V还具有非常令人印象深刻的推理能力,可以执行回答数学问题、编写代码、根据图像内容作诗等高级推理任务。基于该模式,步星还在C端智能助手“阅文”上推出了智能视觉搜索功能“拍照问”。用户可以拍照提问,比如拍食物的照片来计算卡路里、拍场景的照片来学习英语单词等。
如果说Step-1.5V的发布标志着步星在极短的时间内实现了从图像理解到视频理解的跨模态升级,那么新发布的Step-1X图像生成大模型则代表着月星辰也已经实现了从图像理解到视频理解的跨模态升级。在促进多模式理解和发电一致性的技术路线图上取得了重要进展。
Step-1X采用全链路自研DiT(with)模型架构,支持600M、2B、8B三种不同参数量,可以满足不同场景的需求。此外,Step-1X具有强大的语义对齐和命令跟随能力,并针对中国元素和文化进行了深度优化,使其更具中国风格。这也是Step-1X区别于其他型号的重要特征。
除了在基础模型层面的全面布局和快速迭代,步星在产品化方面也表现得很快:智能助手“阅文”和AI开放世界平台“泡泡鸭”都是步星针对C端的产品用户。推出两款产品。
基于Step系列通用大型模型的强大能力,“阅文”可以准确地描述和理解图像中的文本、数据、图表等信息。它不仅可以出色地完成内容创作、逻辑推理、数据分析等任务,还可以满足人们在生活场景中的各种需求,例如拍照介绍文物古迹背后的历史知识,帮助制定出行策略、协助健康管理等
《泡泡鸭》创造了一个全新的AI开放世界。在这里,用户可以探索故事、创造角色,并沉浸在自己的开放世界中。
目前,AI应用普遍面临用户使用门槛较高的问题。步星也正在用一系列的产品创新,让AI应用获得更多普适场景,真正为每个人解决问题。近日,“阅文”在新发布的16相机控制按钮中集成了智能视觉搜索功能“拍照提问”,用户可以一键调用智能问答搜索。是国内首家将大模型能力整合到16座的大型模型制造商,在多模态能力与硬件结合方面迈出了惊人的一步。
在步星CEO姜大新看来,模型和应用之间的关系就像“灵魂和皮肤”。两者的深度结合是实现技术完善的关键,应该形成共同进化的关系。应用将抽象的模型能力投射到现实中,模型能力最终决定一切的上限。
近几个月来,o1的发布在一定程度上印证了之前没有受到足够重视的大型模型的技术方向,即强化学习以及强化学习带来的推理和规划能力的突出表现。在步星最初的“模拟世界、探索世界、总结世界”的AGI发展路线图中,世界模型和强化学习都在待攻克的地图上。
在大模型技术曲线由陡坡放缓的背景下,无论是模型的多模态能力、杀手级AI产品的出现,还是更好地利用强化学习训练,很多领域都亟待突破预计会比以前更好。基本模型的功能在任何时候都没有更明显地体现出来。
Step-2以及整个Step系列车型或许是Step Star感动世界的支点。


