一大标准是指企业从成本效率、资源利用率等维度制定的成本评估框架——“单位有效算力成本”,可以成为企业评估算力资源实际效率的参考,也为企业提供了参考。为智能计算产业的透明化和透明化奠定了基础。效率和可持续性提供了可行的路径。
高效、多元化的GPU智能计算产品和服务,包括针对万卡集群大规模训练需求的智能计算中心建设和运营、满足弹性算力需求的GPU容器服务、评估关键指标的先进算力实验室等。 ,结合上下游产业的产业孵化器四大维度。
从评价标准、算力服务到科学评价服务,英博数科作为宏博股份有限公司的全资子公司,肩负着集团科技专项发展的重任,在集团下形成了全方位的业务支撑。智能计算产业加速变革。 。
大模型产业发展至今,从最初的爆发式发展,到AI应用的加速落地以及图片、视频、3D等多模态模型的出现。 2024 年即将结束,谷歌、亚马逊、meta 都公布了年终大动作。掀起新的大车型热潮,将行业竞争推向新高度。
这其中,随着算力、算法、数据三驾马车齐头并进,企业在算力层面的需求正在发生变化:从单纯考虑算力规模到如何利用好算力、充分利用算力。释放计算能力的价值。这对算力提供商提出了更加严峻的考验。
在此背景下,智喜喜等媒体与宏博首席财务官、英博集团首席执行官蒲伟、英博集团CTO李绍鹏、英博集团副总裁宋晨、英博集团副总裁秦伟军等进行了深入探讨。发布会初期。交流,从英博云新发布开始,探索智能计算产业的高效发展路径。
1、从基础模型到AI应用,凸显智能计算产业三大趋势
计算能力是数据处理和算法执行的关键驱动力。今年以来,行业关注重点也发生了变化。
从算力提供商和企业需求方的角度来看,目前存在三个明显的趋势:
首先,通用大模型训练算力集群从千卡移至万千卡。
此前被视为大模型“金科玉律”的Law发展速度正在放缓,成为业界热议的焦点。综合来看,虽然预训练速度变慢,但正如李少鹏所说,在相同算法、相同架构下,模型规模往往与性能成正比,所以“从第一原理来看,规律不会失败”。到了一定阶段,毫无疑问,对算力的需求将会持续增长。
纵观一般大型模型的参数发展,已经从千亿走向了万亿。随着硬件技术的进步,搭建万卡集群是可行的。海外GPT-4大型模型需要25,000个A100 GPU才能训练100天。 meta 推出了两个 24,576 个 H100 集群。马斯克曾透露,新版 Grok 3 使用了 10 万个 H100 GPU 进行训练……
可以说,级别已经成为未来制作通用模型的必备门槛。
其次,垂直大模型训练的计算能力的使用从定量转向弹性。
与一般模式不同,垂直模式业务往往具有很强的时效性和不确定性。以金融行业的风险预测为例,市场波动频繁是其高频使用的场景。市场相对稳定,对算力要求相对较低。 。
因此,其算力配置的规模和频率可能会随着时间和业务场景的变化而变化,定量的算力配置很难灵活应对这种变化。
弹性算力供给模式不仅可以让企业根据实际训练需求动态调整算力资源,减少训练任务低谷时期的算力租用,避免不必要的成本支出;它可以在高峰期快速扩展计算能力,以确保训练任务按时完成,从而在控制成本的同时高效利用计算资源。

最后,计算能力需求正在从训练转向推理。
加速大模型应用已成为共识,其应用场景已从科研维度拓展至医疗、金融、交通等行业。在这些实际场景中,大型模型推理阶段的算力需求更为突出。
在业务方面,AI助手、聊天机器人等需要快速响应客户请求,实时处理和计算大量传感器数据,以支持其做出准确、科学的决策反馈。
然而,在清晰的行业趋势背后,算力提供商面临的挑战也不容小觑。
构建万卡智能计算集群需要解决硬件、软件等诸多挑战。如大量加速卡之间的高速互联、稳定可靠的硬件系统、容错的软件架构、有效的故障检测机制、优化适配的训练算法、提高的能源利用效率……
同时,弹性算力对算力提供商的技术积累提出了更高的要求。它需要融合云计算、虚拟化、容器、异构计算等多种技术,同时还要兼顾数据管理和传输。在如此复杂的环境下,在系统架构下完成运维管理。
最后推理阶段对算力的要求最直观的就是响应要快。与训练阶段不同,推理阶段的用户对延迟的容忍度较低,需要在短时间内得到响应。因此,算力集群需要能够通过提高网络带宽和存储系统性能来兼顾数据快速传输、数据安全等。
因此,算力提供商如何提供更好的算力以及企业如何选择合适的算力就成为了两者之间的鸿沟。
2、算力高效利用刻不容缓,应率先定义“单位有效算力成本”
目前,虽然万卡集群的建设正在快速推进,各家企业也纷纷提出了灵活的算力供应方案,但企业该如何选择这件事还没有解决。
从企业需求来看,当大型模型应用于各行业时,企业购买算力的重点也会发生转变,从更加关注算力的规模转向算力的有效利用。
那么,业内有没有直观的数据指标可以直接呈现这一评价标准,以便企业快速、准确地选择高性能、高性价比的解决方案呢?答案显然还没有。
普威做了一个形象的比喻,就像开着汽车在高速公路上装载货物一样。只有车子马力足够、装满货物,才能充分发挥实际支出的“算力”。在此背景下,英博数字提出了一个新标准来定义“单位有效算力成本”:

具体来说,该公式的分子为算力投入成本,由设备成本、机电成本、运维成本组成,分母为有效算力,由装机算力、卡可用率、卡利用率和使用率等组成。模型计算能力利用率。 ,通过这两个参数的系统比较,得到单位有效算力的成本。
李少鹏进一步解释,这个标准的制定背后,他们综合考虑了整个链条的成本、实际装机算力、训练过程损耗、模型框架选择、模型训练时长和效率。
其中,算力成本中购买服务器的设备成本是固定的。此外,智能计算中心的日常使用需要企业支付机房租金和电费。它还需要人力来操作和维护它们以避免发生故障。因此,最终的成本来源就是这三块。
分母是指企业获得的有效算力,因为安装的算力,即设备厂商指定的额定算力,会因为各种因素而受到影响。
在运维技术或条件不完善的情况下,该卡出现故障的概率很大。也就是说,假设装机算力达到1000P,实际可用算力可能只有900P。
卡利用率是指企业实际使用GPU卡的效率。前面提到,在垂直业务场景中,对GPU算力的需求不是稳定持续的,因此在非业务场景中GPU卡会闲置。
最后是模型算力利用率,这是大型GPU模型训练和推理的重要指标。是算力资源实际有效使用与提供的算力资源总量之间的比例关系。
将这四个关键因素相乘作为整体的分母,加上公司的算力投资成本作为分子,可以清晰地评估出“单位有效算力成本”。
回过头来看,目前企业关注应用算力的效率并不是什么新鲜话题,相关讨论也异常火热。从目前讨论的重点来看,相关标准、机房算力、运营、网络、存储、环境问题等问题分析较多,但缺乏将这些因素串联起来的逻辑链。
英博数字为何这么做?濮伟指出了问题的关键——因为英博数码从头到尾都经历过这个环节。从智能计算中心建设、机房选型到集群建设交付再到模型训练,一切都在其业务体系中得到体现。
无论从成本还是效率的角度来看,算力的高效利用都刻不容缓,而“如何用好算力”现在就显得更加关键。站在算力行业新的发展节点,英博数科将在“提高算力的有效利用率”上做文章。
基于上述标准,当算力需求方和供给方达成共识,这是算力产业健康发展的前提。李少鹏补充说,企业可以根据这个标准快速估算自己的成本和相应的需求,找到合适的解决方案。
因此,英博数码高效、多元化的智能计算产品和服务解决方案应运而生。
3、高效、多元化的智能计算产品+服务,释放更有效算力
“单位有效算力成本”新标准已成为英博数字产品和服务体系的标杆。
今天,英博数字推出高效、多元化的GPU智能计算产品和服务——英博云,已成为大规模模型智能推进及其落地的重要基础设施。
除此之外,其产品还包括满足万卡集群大规模训练需求的智能计算中心的建设和运营、满足弹性算力需求的GPU容器服务、评估关键指标的先进算力实验室以及产业联合等。上下游产业孵化器四大业务。
从直接算力供电解决方案的角度,陈松提到了英博数科关注的两点。一方面,是拥有集群规模建设进行大模型训练的龙头大模型客户。他们将基于自己的集群建设和运营。拥有维护经验,提供定制化的集群选型、搭建、运维整体解决方案;另一方面,推出容器云服务,满足中小客户弹性算力需求。
其中,智能计算中心的建设和运营是面向万卡集群的大规模训练需求。英博云将为企业提供自主研发的高性能并行存储解决方案、硬件评估检测系统、系统运维和硬件维护系统、细致的集群监控和自动故障恢复系统以及算力调度平台。

构建1万甚至10万卡规模的集群,需要将所有卡组成一个计算网络,这涉及到整体设备、交换机、光模块、光纤的选型。这对于非AI基础设施领域的专业玩家来说是一个巨大的挑战。这是英博数码技术积累充分发挥优势的一次机会。
GPU容器服务可以满足弹性算力需求,包括提供GPU和CPU资源混合的弹性K8S集群服务、支持SSH和管理操作、二级容器启停和计费粒度、企业级并行存储服务等提供内部网络预定义场景图像仓库、通用模型库、通用数据集等数据源服务。

容器云的难点在于需要精准分配和管理算力资源,以适应企业大模型训练和推理不同阶段的算力需求。它还需要考虑到数据的高效存储和管理、高效的网络通信、高效的并行性和分布式训练等。英博云的产品将为客户提供按需计算能力,甚至可以按小时、分钟、 CPU 任务或 GPU 任务。由于有了“单位有效算力成本”的标准,企业的算力成本也将更加可控。
除了产品之外,服务体系也是链接企业需求与算力供给形成科学互动的关键,这就是英博数科算力实验室所发挥的作用。
宋晨表示,算力实验室重点关注两个领域:评估市面上主流算力卡,以及评估适配国产算力卡和开发异构算力平台。
先进算力实验室聚焦硬件评测、软件评测和行业服务,为企业算力基础设施升级优化提供前瞻性、先进性和实用性建议。比如在硬件评估方面,实验室会对GPU、交换机、光模块、并行存储等进行严格的测试,确保设备性能达到高标准;在软件评估方面,实验室将重点关注基础模型、训练框架、微调框架、推理框架等,为智能算力优化提供全面支撑。先进算力实验室通过提供行业标准制定和定制化服务,帮助企业在智能算力领域不断突破和创新。

在投资层面,英博云正在联合AI产业上下游,探索算力组合投资新模式。陈松提到了产业孵化器的形式。英博数字将为人工智能应用领域的新兴初创企业提供资金、算力和人才培训。等待帮助。
综上所述,英博云的智能算力产品和服务升级,融合了万卡集群建设、算力供给方式、评价体系,连接了智能算力服务的供给体系。
实现这些都不是一日之功,而这一切都得益于这匹国内“算力黑马”深厚的技术积累和商业化经验。
英博数字的核心成员来自清华大学、北京大学等知名学府以及领先的互联网、人工智能和云计算公司。
就在上周,英博数码的智能计算中心建设及运维解决方案已在京能项目落地。据悉,英博数码在智能计算中心建设和运营方面的独特优势,成为推动京能项目持续推进的核心力量。 。
这些都成为在向智能计算产业转型的产业浪潮下构建产业护城河的重要支撑。
如今,算力在AI产业中发挥着重要作用。当前的行业命题是如何跟上大模型行业的发展趋势,让算力在企业之间高效转移。英博数科的战略升级,使其成为当前该产业链中的算力赋能者。
结语:算力先锋,AI全链条演进的强大引擎
随着人工智能技术不断向纵深拓展,从基础模型的构建到复杂算法的训练和优化,每一个环节都离不开强大算力的支持。
英博数字大力投入算力基础设施建设,并取得了显著成效。此次产品和服务的全面升级,也是其对算力行业变革趋势的最新回应。
随着人工智能应用加速,计算基础设施提供商正联合大型模型厂商、企业应用方,不断为人工智能大规模应用注入新动力。


