
傅盛带领公司,正在搅动AI数据服务行业的一池泉水。
作者|王毅
大型模型狂奔了700天,但真正能投入实际使用的却寥寥无几。
国联证券曾做过统计。所有A股上市公司2023年财报中,有883家公司提及生成AI业务,但一半以上一级行业渗透率不超过10%;上市公司整体渗透率也不足20%。
很多企业在实施大模型的过程中都遇到了普遍的问题,包括商业价值明确的场景有限、人才缺乏导致模型实施的工程化能力不足等。
但以上问题都只是小问题。如果我们放眼整个To B市场的企业数字化,我们会发现,阻碍大模型在中国落地的依然是模型能力的缺失:数学推理能力差、资源利用效率不足、产业缺乏导致模型性能不佳的知识。 ......等原因阻碍了大型模型商业化的发展,而造成这些现象的核心原因是缺乏高质量的数据集。
众所周知,数据、算力和算法是支撑大模型发展的三大基石。在今天十万卡集群的密集建设和 GPU的“年度迭代”下,算力的供给已经不再是问题;在GPT-4、Llama等主流模型的演进过程中,该架构的地位依然强劲;而数据,则成为了各个大型模型厂商之间竞争的关键——数据是大型模型的“燃料”,其质量、多样性和规模直接决定了大型模型性能的天花板,尤其是最后两个阶段训练过程(SFT和RLHF,详见“”)。
这也让AI数据服务成为热门赛道。随着大车型研发热潮,不少企业纷纷涌向这一赛道。其中不仅有科技巨头和专业数据服务商,还有不少初创公司,其中包括估值138亿美元、在全球人工智能初创公司中排名第二的Scale AI。
其中,科技巨头拥有客户资源,专业数据服务商拥有低成本人力服务优势,初创企业“重技术不重人力”。然而,在这个领域,既拥有客户资源、技术优势,又能够准确洞察用户需求的企业并不多。猎户座之星是少数之一。
11月27日,猎户星联合聚云科技召开题为“AI数据准备好,教育部大模型发布暨商用闭环共享”媒体见面会。猎户星正式发布自主研发的Orion-MoE8×7B大模型,并携手聚云科技推出基于该大模型的数据服务产品——AI数据宝AirDS(AI-Ready Data)。
一家由AI技术驱动的公司正在搅动AI数据服务行业。
1. 必须同时有效和快速
在大模型已经发展到高度成熟和精细化的今天,体积参数、体积算力、体积价格的时代已经一去不复返了。大型模型公司之间的竞争已经演变为了解客户需求的竞争。谁能更好地融合用户的业务场景和隐私数据,谁就能在激烈的大模型竞争中获胜。
MoE模型的优势早在2023年12月8×7B发布时就得到了市场的验证。随后,各家公司的MoE架构模型也陆续发布。那么为什么 Orion 会在 2024 年底之前发布 MoE 模型呢?
这与猎户座的策略有关。作为一家成立于2016年的公司,猎户星在2022年之前陆续推出了智能语音交互产品宝小米、智能室内导航产品招财宝、机械臂智卡大师等服务机器人,并将于2024年1月发布。自主研发的百亿参数大语言基础模型Orion-14B“为企业应用而生”,精准踩踏人工智能的每一次技术浪潮。

Orion Sky的发展历史,来源:Orion Sky
可以说,猎户星是一家充分经历了AI 1.0和AI 2.0两个时代的公司。
多年的AI行业经验和多年服务To B客户的经验,让猎户星在打磨技术能力的同时,能够更加精准地洞察用户需求。
在服务客户的过程中,猎户星发现很多行业的客户不具备训练自己模型的能力;而有模型训练能力的客户在使用模型时却存在问题,比如高频投放场景下模型效率低、响应慢等,或者频繁调用大模型导致成本高。
除了增加模型的计算能力、训练数据量、更大的参数、更强的能力之外,解决这个问题的最好办法就是对模型进行稀疏化,将任务分解为不同的子任务并使用不同的网络架构由多个专家来处理这些子任务就是所谓的 MoE(混合专家)模型。
与传统的密集模型相比,MoE模型利用专家网络的稀疏激活机制,显着减少每次前向传播所需的计算量,可以有效加快训练速度,降低运行延迟;由于仅通过激活一小群专家来工作,MoE模型实际上使用的参数远少于相同规模的密集模型,并且可以用更少的有效参数实现类似甚至更好的性能;此外,在模型的可扩展性、灵活性、性能、适应性、能效等方面,MoE模型也具有较为明显的优势。

模型中 MoE 层的图示 来源“A on of”,Cai 等人。
Orion Star认为,模型并不是越大越好,越符合企业的需求。于是,在本次大会上,Orion发布了Orion-MoE 8x7B模型。该大模型是猎户星自主研发的开源混合架构专家大模型。它有 8×70 亿个参数,由生成混合专家设计。涵盖中、英、日、韩等多种语言,表现出色。表现。
对于“猎户星为何要在2024年底发布MoE模型?”的问题,猎户星首席科学家韩坤给出了具体答案。他表示,Orion Star的MoE模式主要是由客户需求驱动。
“事实上,今年年初我们发布了Orion-14B模型后,我们很快就和一些企业客户一起打造了一系列AI产品,包括AI超级导师等。在这个过程中,我们进一步提高了对AI的理解。我们也知道客户最想要什么样的模型来构建他们的人工智能应用。事实上,这意味着:它必须既有效又快速。”韩坤说。
韩坤表示,MoE模型的架构其实在2022年之前就已经存在了。2022年大模型浪潮开始后,虽然市面上的MoE模型越来越多,但大部分都是海外厂商,比如meta,当他们推出后,这些厂商的模型能力都不错,但在语言能力和推理速度方面表现稍差。 “所以一方面根据客户需求,另一方面考虑到技术的迭代,今年上半年我们就开始从数据角度进行准备,经过几个月的训练迭代,我们正式上线了我们的教育部模型。”韩坤解释道。
在主流公开基准评估中,Orion-MoE8×7B与相同规模和参数水平的大型基础模型进行了比较。各项评价指标均表现良好,尤其是多语言能力方面。此外,它在推理速度方面也表现出色,明显高于相同参数尺度的密集模型。

Orion-MoE 8×7B 具有出色的多语言能力,来源:Orion Sky

Orion-MoE 8×7B 推理速度明显优于 Qwen2.5-32B,来源:Orion Sky
2、大模型“炼丹”比“修仙”容易
前面提到,虽然模型能力在不断增强,但真正决定大型模型厂商成功的还是他们对客户需求的理解。
在国内内卷化程度不断加深的背景下,越来越多的企业选择走出去寻求业务增长机会。例如,支付宝通过与当地金融机构合作、设立子公司、提供数字支付解决方案等方式积极拓展国际市场;比亚迪在欧洲、北美、东南亚等地拥有生产基地和销售网络,成为全球领先的新能源汽车制造商之一。
大模特时代到来后,不少海外企业希望用大模特为自己的业务赋能,纷纷在海外业务平台上加入了大模特。然而,在海外业务实施大模式的过程中,海外企业遇到了各种问题。例如,一些通信行业的企业在实施海外业务的大型模型时遇到了语言本地化和翻译不准确的问题。还有一些互联网娱乐公司在海外业务中遇到了模型“听不懂人类语言”、无法准确遵循指令等问题。
造成这些问题的原因与海外企业对用户需求缺乏了解、模型能力不足、数据质量不够有很大关系。
猎豹移动董事长兼CEO、猎户星董事长傅盛表示,大机型之间的竞争,本质上是数据的竞争。 “一般来说,我买的算力,主要是因为我有钱;大家的算法其实都差不多。只要第一版算法不是太差,就看机会了;但只有一层数据没有人愿意去探究。窗纸破了。”傅盛说道。
傅盛表示,在算力和算法难以区分的当下,今天大模型行业真正的壁垒来自于数据。如何找到优质数据并与应用相结合,是大型模型公司成败的关键。
“我和朱啸虎私聊过,他说整个互联网能用来训练的数据都是20T,训练完20T就没有数据了,参数个数也不起作用。很多厂商都想到了一个办法,就是用GPT-4的模型自动给数据打标签,然后喂给模型,后来发现大模型咀嚼出来的数据一开始还好,但是大了模型被修改后会变傻“用的太多了。”傅盛说,“今天你可以看到有些模型质量很好,核心都是数据。如果你读论文,你会发现他们花很多时间在讲如何做。以提高数据质量。”
傅盛说的是真的。虽然目前国内不少企业都在开发基于大模型的应用,但应用的“可用性”和“易用性”之间存在巨大差距。很多公司在基于大模型构建AI应用时,发现幻觉问题严重,准确率无法提升。尤其是应用适应特定行业场景时,推广难度更大。猎户星认为,根本原因在于大模型与应用之间的“纽带”,即AI数据服务。

资料来源:猎户座天空
“现在企业的数据是多模态的。比如我们有大量的PDF文件,其中大量的数据可能是无声的;有大量的视频和音频,里面所有的语音都是语音。”这些数据其实还没有准备好供AI使用。”猎豹移动副总裁佟宁表示。
为了解决这些问题,基于通过教育部大模型开发对数据训练的认知理解和能力积累,猎户星携手猎豹移动旗下聚云科技,共同推出大模型数据服务产品- AI数据宝AirDS(AI-Ready Data)。为全球企业提供更高效、精准的人工智能数据服务支撑,帮助企业实现人工智能应用落地过程中的“最后一公里”突破。

资料来源:猎户座天空
具体来说,AI数据宝AirDS提供全方位的大模型数据服务,涵盖数据采集、清洗、标注、提示词工程、评估等。对于想要训练自己模型的客户,AI数据宝将提供一套专属服务,将用户数据放入自己的系统中供用户使用和微调;对于想要申请的客户,AI数据宝将帮助用户准备配对数据(原始数据和期望值),并优化数据清洗、标注、提示词、评估等一系列工作流程,帮助用户免除数据的一切后顾之忧等级。
例如,在移动通信终端领域,AI数据宝AirDS根据用户需求,采集多场景、多语言数据,完成开发测试平台,优化项目,提高大模型的数据返回精度;

资料来源:猎户座天空
此外,通过大模型自动化工具测试平台和项目的开发,AI数据宝AirDS实现了移动端多语言用户之间的交互式语音翻译,大大提高了准确性;

资料来源:猎户座天空
在互联网娱乐领域,AI数据宝AirDS服务允许用户使用大模型通过自然语言交互调用外部互联网应用API。

资料来源:猎户座天空
除了这些案例,AI数据宝还服务了新能源汽车、互联网金融、海外消费零售等行业的一批中国领先的海外品牌,帮助客户显着提升AI应用的效果和效率。
3、整合各方优势,构建业务闭环
为什么猎户星与聚云科技共同打造并发布AI数据宝库?
猎豹移动高级副总裁孙明艳在沟通会上表示,AI数据宝AirDS是基于猎豹移动现有基因和在多个领域的显着优势而推出的。这些基因和优势包括海外全球化经验、应用开发能力、AI机器人等。以及大型模型行业实践和技术积累。
作为最早成功出海的中国互联网企业之一,猎豹移动凭借工具应用打开了全球市场。近年来,猎豹移动的战略转型从传统的ToC业务转向以AI和大模型为核心的ToB业务。通过控股猎户星,进一步强化了在AI服务机器人、AI大模型领域的布局。
在获取客户需求方面,猎豹移动旗下聚云科技发挥了重要作用:
聚云科技是行业领先的出海企业一站式云服务解决方案提供商。是亚马逊云技术在中国首批获得生成式AI能力认证的高级咨询合作伙伴之一。同时,今年以满分的成绩通过了亚马逊云技术。 MSP 认证。
作为全球云管理领域的领导者,聚云科技拥有十余年海外运维经验,已成功服务游戏、电商、金融、人工智能、教育、汽车、手机等,客户包括多家世界500强企业。客户包括WPS、涂鸦、Notta、老虎证券、等众多中国知名品牌,我们深入了解客户在云端的GenAI应用需求。

资料来源:猎户座天空
在AI数据服务能力方面,猎豹移动旗下猎户星相比市场同行也具有足够的竞争优势:
目前,中国人工智能数据服务市场主要存在三类主体:科技巨头、初创企业、专业基础数据服务商。其中,大多数专业基础数据服务商“重人力、轻技术”,依靠众包或外包模式起步。可以满足一些低端需求,但整体缺乏算法能力;创业公司“重技术、轻人力”。从智能标注工具这个小赛道开始,逐渐形成全栈交付能力;相比之下,科技巨头并不是最先入局的,但他们起点最高,拥有充足的人才、资金和技术储备,能够强力整合平台资源,加速技术研发。
其中,猎户星更像是一家科技巨头和一家初创公司的结合体——不仅训练大模型、拥有大模型数据服务能力,其姊妹公司聚云科技也拥有丰富的服务大客户的经验。行业,提供Orion Star帮助Orion Star更好地获取客户的真实需求;同时,猎户星从去年开始就开始进行大模型和AI应用的研发,并具备相应的技术能力。同时,猎户星也是业内唯一一家对外开放数据能力的厂商。

Orion Star在AI数据服务方面的优势 来源:Orion Star
可以说,在AI数据服务方面,猎户星拥有端到端的全链技术能力,比大型模型公司更加开放,比传统数据公司更懂AI。
发布会最后,猎户星还宣布与香港大学计算与数据科学学院签署合作协议。双方将共同开发面向课程教学场景的人工智能应用教育工具,开展“聚焦具身智能的课程项目”,共同推动人工智能技术在应用领域的普及应用。香港大学作为国际高等学府,相信能为猎户座带来新视角和创新理念,提升猎户座在人工智能领域的创新能力和竞争力,提升猎户座的国际影响力。
业界长期以来一直在探索大模型的产业化,并尝试过MaaS平台、代理等多种解决方案。然而,能够让大型模型应用真正运行并融入到工业场景工作中的企业却很少。流动并产生实际价值。当威名荡然无存之后,只有当人们发现大模型的本质仍然是数据工程,数据决定大模型的真正价值时,像猎户星这样既了解用户需求又拥有技术积累的公司才能被真正看到。


