责任编辑:李水清
智东西9月5日报道,今日,腾讯云在腾讯全球数字生态大会上发布AI Infra(AI基础设施)品牌“腾讯云智能计算”,整合旗下高性能计算HCC、星脉网络、AIGC云存储等各个产品的能力,提供集计算、存储、网络于一体的高性能智能计算底座。
目前腾讯云智能计算已经服务国内90%顶级大模型用户,包括百川智能、智浦AI等。据腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱岳鹏介绍,腾讯云集群千卡单日故障次数是业界1/3,数据读写效率是业界10倍,千卡集群通信时间是业界一半。
大会前,智东西专访了腾讯云副总裁、云计算资深技术专家沙凯波以及多家媒体,就智能计算产业的市场趋势、技术难点等进行了深入探讨。
谈及AI对云计算的影响,沙凯波认为,从长远来看,生成式AI的发展是确定性的,大模型对于智能计算产业来说是一个巨大的增量块,未来肯定会出现比较大的爆发节点。
我们之所以选择在此时成立腾讯云智能计算品牌,也和客户需求息息相关。另一方面,大规模模型计算、推理等场景对云基础设施的要求很高,作为解决方案提供商,腾讯云需要不断磨练产品能力,更好地支撑该类客户的业务需求。
1.集成计算、存储、网络,从设备安装到培训开始仅需1分钟
总体来看,腾讯云智能计算是集计算、存储、网络于一体的高性能智能计算底座,集成腾讯云高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智能计算套件等产品,提供性能领先、多核兼容、部署灵活的智能计算产品能力。
互联网公司、大型模型厂商、本地智能计算IDC、金融公司等是现阶段腾讯云智能计算的主要客户。在具体场景上,除了公有云,也存在一些私有云、专有云的应用,其中大型模型厂商是主要客户之一。
腾讯云智能计算大幅提升了训练启动时效,从设备到货到开始训练,由行业平均30天缩短至仅需1天。
在集群稳定性方面,腾讯云智算千卡单日故障卡数为0.08张,仅为行业平均水平的1/6;在数据读写效率方面,聚合写入峰值性能是行业平均水平的10倍以上,1分钟可完成1万张卡的读写;在网络交换效率方面,通过对服务器、网络终端、交换机、通信库等进行整体自研优化,千卡集群的通信时间占比为6%,是行业平均水平12%的一半。

▲腾讯云智能计算训练效率
随着市面上大模型的参数规模不断增长,从数百亿到数千亿,并逐步扩展到万亿级,对模型训练的底层计算集群要求也越来越高,腾讯云是如何解决集群升级难题的?
沙凯波表示,打造大规模计算集群也是腾讯云智能计算产品矩阵最想解决的问题。其中HCC高性能计算产品具体用来构建高性能、稳定的大规模计算集群,而如何高效利用GPU等算力,利用星脉网络提供卡间高效互联,高性能存储产品则对应模型训练时的高效读写。
只有在这些产品基础上构建的全栈计算、存储和网络解决方案才能帮助客户实现大规模集群的高效使用。
2.4天训练完成万亿参数模型,5分钟解决网络故障
具体来说,腾讯云智能计算的产品矩阵包括高性能计算、网络、存储产品、加速框架、矢量数据库、智能计算套件等。

▲腾讯云智能计算解决方案
腾讯云HCC高性能计算集群于去年4月发布,是业界首个针对大模型训练和推理的计算集群。
HCC底层采用腾讯云自研星星海服务器,可提供3.2T超高互联带宽,算力性能较上一代提升3倍,最快4天即可完成万亿参数规模混合NLP模型的训练。稳定性方面,HCC千卡单机日故障次数为0.08次,不间断训练时长达到300小时,是行业平均50小时的6倍。
腾讯云星脉网络是其自研的高性能计算网络IHN,支持十万卡以上大规模组网、多种模型异构GPU接入,网络通信效率较上一代提升60%,大模型训练效率提升20%。
星迈网络拥有高效的故障处理能力,在万卡集群下,可以实现1分钟发现网络故障、3分钟定位故障、5分钟解决故障。
沙凯波介绍,这是因为星脉网络会自动感知一些流量和拓扑,调度流量替代中心,从而提高整个网络的吞吐量;而且在发现故障的时候,可以快速定位到哪个链路出现了问题,调度该链路,并进行异常处理,从而保证整个训练能够不间断或者很少中断。
腾讯云AIGC云存储解决方案包括CFS Turbo、对象存储COS、数据加速器、数据处理CI等,为AI大模型数据采集清洗、训练、推理、数据智能管理全流程提供全面高效的云存储支撑,可成倍提升大模型数据清洗和训练的效率。
3、钱卡集群每年降低成本2000万,助力传统企业转型AI
目前,腾讯云智能计算已能灵活支持公有云、私有云、分布式云的输出,已成为国内90%顶级大模型厂商的选择,同时也助力大量IDC厂商实现AIDC转型。
沙凯波介绍了腾讯云智能计算的具体实施案例,一些大型公有云客户使用了其完整的智能计算解决方案后,一个千卡集群一年的成本比过去传统方式可以节省2000万左右。
例如某社区电商公司在评论分析、图像分类等OCR、CV业务上应用了腾讯云智能计算解决方案,去年下半年在腾讯云公有云上将海外芯片替换为国产芯片,在主要业务指标不变的前提下,仅用21天就完成了替换,其中约两周用于模型适配,约一周用于推理框架改造,不同芯片的适配非常高效、灵活。

▲腾讯云智能计算客户价值
在私有云的落地上,腾讯云智能计算的主要客户是传统IDC企业,这些企业原本拥有机房、硬件、网络等优势,但缺乏云和软件解决方案。
具体案例中,某传统IDC公司与腾讯云智能计算合作,构建了具备AI Infra基础能力的新一代智能计算平台,并通过租户及计费管理能力为最终用户提供一站式自用云服务,实现向AIDC转型。该客户还获得了今年可信云大会上的用户最佳实践奖。
4. 探讨智能计算产业五大趋势,保持兼容开放、公私结合
纵观整个智能计算行业,正处于快速发展阶段,产业规模、应用场景、技术创新不断拓展。沙开波和我们分享了腾讯云对未来趋势的看法,主要包括五个方面。
首先,大模型的规模还在不断增大,对AI基础设施提出了越来越高的要求,需要更大规模的算力集群,如何保证更大集群下的稳定性和适用性,满足要求是主要问题。
第二是多核能力。多核一方面来自供给侧的挑战,需要AI Infra产品能够适配各种芯片的能力。比如一些金融等行业的央企会有国产化的需求,就需要云厂商能够兼容和适配国产化的芯片。
第三,人工智能整体应用处于快速发展阶段,现在还处于应用落地的早期阶段,未来可能发展速度会越来越快,从这个角度来看,未来推理的比重可能也会逐渐上升。
第四,AI场景越来越广泛,很多行业还处于探索阶段。从腾讯云智能计算和很多客户的交流中,我们可以看到他们在这方面有很强的需求,未来肯定会有一些创新的业务应用。
最后,对数据安全性有强烈的需求,对于国内很多公司来说,用于训练、推理的业务数据只能在自己的机房完成,这对产品能力的部署提出了更多的要求。
谈及腾讯云智能计算的整体战略目标,沙开波表示,腾讯云从成立之初就不断打磨产品,在原有的通用计算和云的基础上不断演进,让原有的云基础设施能够更好地满足大模型时代训练和推理场景的诉求。
此次腾讯云智能计算品牌的推出,主要是为了将过去的一系列工作结合成一个整体解决方案对外提供,向行业传递更加精准、完整的信息。
相较于其他竞争对手,腾讯云智能计算品牌的主要策略是全面兼容、开放、公私融合。
结语:生成式人工智能推动智能计算产业快速发展
凭借集计算、存储、网络于一体的高性能智能计算底座,腾讯云智能计算集成了多项优势产品,展现了在智能计算领域的技术能力与潜力。
随着生成式人工智能的不断发展,智能计算行业或将借由大模型的趋势而腾飞。腾讯云智能计算凭借其兼容开放、公私合一的策略,不仅灵活支持公有云、私有云、分布式云的输出,也成为国内大量大模型厂商的选择,助力大量IDC厂商实现向AIDC的转型。


