我们利用网络加速AI训练和推理,利用AI让网络更加安全可靠。
对于人工智能来说,人工智能训练对计算能力的要求越来越高。从万卡集群到十万卡集群,再到百万卡集群,如何整合远距离分散的计算资源,实现规模算力的跃升。
AI来说,当前工业领域面临着“如何让自己的产品更加智能”的问题,如何用AI改变网络,让网络更智能、更安全、更可靠,实现汽车的“自动驾驶”网络。
在智能未来大会上,华为NCE数据通信领域总裁王辉与我们分享了他的观点。

为了充分体现王辉的思想,量子位在不改变原意的情况下对演讲内容进行了编辑整理,希望能给大家带来更多启发。
核心思想
互联网与人工智能的关系可以概括为For AI和AI For。我们利用网络加速AI训练和推理,通过AI手段让网络更加安全可靠。
在大型模型训练方面,无阻塞网络提高了大规模训练的效率。
远距离协同算力,通过构建高速网络互联,将分散算力整合为大规模算力。
人工智能和大模型在垂直行业应用时,面临实时决策、严格推理、场景泛化等挑战。解决问题的关键是大模型推理能力与领域机制模型和工具的深度融合。

(以下为王辉演讲全文)
AI与互联网的关系是“For AI和AI For”
大家早上好!今天大会的主题是“智能变革千行百业,惠及各行各业”。众多嘉宾从产品和制造商的角度阐述了人工智能如何改变千行百业。
接下来我将从工业领域的角度来谈谈To B行业中AI大模型与其背后的通信网络之间的内在关系。
这个话题非常重要。我在全球遇到的100多个行业客户都面临着一个共同的问题,就是如何在大AI模型时代武装自己,让自己的产品和行业变得更加智能。
我们看到,我们认为代表AI的大型AI模型一直在快速进步。但回望工业领域,大模型在垂直行业落地时遇到了很多实际困难。甚至可以说,他们正在苦苦挣扎。所以今天我想从垂直行业和网络行业的角度来看看我们的一些想法。
因此,我想从垂直行业的角度谈谈对人工智能的一些思考。
说到互联网,大家比较熟悉的概念就是我们现在用的5G和Wifi,但是互联网和AI有什么关系呢?
可以用两句话来概括,非常清楚。一个叫For AI,另一个叫AI For。

for AI是指利用网络来加速当前的AI训练和推理,AI For利用AI让网络更加智能和可靠。
大模型训练不中断,网络需要均衡
对于AI来说,业界有很多不同的路线。
正在全力推广该系统,AMD也在推广自己的link,国内华为也在推广HCCS。在开放标准方面,还有超级以太网等;
这么多路线背后的逻辑是什么?

集群节点内部,scale up模型追求极致的通信效率。在进行AI训练时,采用计算与网络强耦合的方式,旨在大幅提升计算性能。大多数厂家采用相对封闭的技术路线。
在集群节点之外,横向扩展模型追求计算资源的互联互通,网络技术逐渐向统一以太网路线发展。
当前大规模集群训练面临的共同挑战是如何长时间保持稳定的训练。正如李开复老师一开始提到的,训练中断也遇到过。
据统计,如今的大型模型训练平均不到两天就会中断一次。除了显卡故障之外,光模块和链路故障也占了这些中断原因中相当大的比例。

从万卡集群到明年十万卡集群,甚至百万卡集群,有两个关键挑战:
如何保证大模型训练长期保持稳定?
如何将多个跨越数千公里的小规模训练资源连接成超大规模的训练集群?
第一个问题的关键是利用先进的算法来维持整个网络的负载平衡,从而加速AI训练过程。
在这方面,我们达到了业界最好的水平,通过NLSB算法可以将整体训练效率提升10%以上;
同时,故障预测算法可以在训练开始前提前发现并排除潜在的故障,从而保持整个训练不间断,大大提高训练效率。
第二个问题的关键是远距离的异构计算。这将成为下一阶段的重要趋势,也是行业的难题。
我们通过AI DC网络和DC间网络的算法协同,以及业界首个跨越数千公里的无损网络,实现长距离数据中心的协同训练。
人工智能
不仅是网络领域,每个垂直行业都在思考如何落地AI。从制作咖啡的机器人到钢铁行业的检查机器人,它们都面临着类似的问题。
我们早在2017年就开始了对网络领域AI的探索,围绕“网络自动驾驶”的解决方案展开
经过多年的实践,我们发现了人工智能和大模型在各个垂直行业应用时面临的一些共同挑战。
首先是实时决策的问题。工业领域和To C领域的区别在于,工业领域的很多决策必须在毫秒内完成;
如果不能实时获取该系统的数据,就无法进行实时决策。
二是推理的严谨性问题。就像制作视频和图片一样,即使效果不是很好,也不会造成严重的后果。
但在工业领域,一个小小的网络配置错误就可能导致重大事故。核心网承载着亿万人接入互联网的使命。一旦发生故障,影响会很大,推理必须严密。
第三个是场景泛化问题。大通信模型不能只用于单一任务,而必须能够适应不同客户、不同场景的需求。

这三个挑战是人工智能在垂直领域落地时遇到的常见问题。如何解决这些问题呢?
这些挑战需要一个系统性的解决方案,即AI智能网络系统,它由三部分组成:我们称之为“一网一图一脑”,分别对应智能网元、网络数字地图和大通信模型。

智能网元
首先要解决的是硬件本身的智能化。
网络数据主要由设备网元产生。如果网络设备只产生日志和警报,大多数时候很难将这些数据恢复到网络的数字孪生中。传统设备网元需要升级为智能网元。

一方面,智能网元必须提供数据。
数据是核心要素。这里的数据不需要大量,而是支持准确决策的最小数据量。其他
一方面,存在精准控制的问题。与新发布的自动驾驶汽车底盘类似,可以在雨天实现精准控制和提前制动。
这是因为系统可以检测轮胎与路面之间的摩擦力。当摩擦力发生变化时,它可以提前预测并迅速采取行动。与人类反应时间(超过500毫秒)相比,智能系统只需要200毫秒。
网络数字地图
然后是网络本身的数字孪生问题。与现实世界中的谷歌地图类似,我们创建了业界第一张网络数字地图,以构建网络世界的数字孪生。
它可以实现数字世界的精确导航、模拟和多维可视化,为大型通信模型提供准确的上下文信息。

聪明的大脑
最后,还有作为智能大脑的通信大模型。大模型必将改变每一个行业,让每一个行业都走向“自动驾驶”。但现阶段在工业领域实施难度较大。
如何解决这个问题呢?我认为有3个关键点:

首先,目前对系统影响最大的不是大模型,而是领域特定模型。
例如专门处理安全策略的模型和专门负责路径优化的模型。这些模型极大地提高了任务执行的准确性,并决定了系统能力的上限;
其次,o1类强大的推理能力决定了系统的泛化能力和决策的准确性;
最后,还有高质量的领域知识治理。我们的大通信模型融合了500亿通信语料库和10000多名网络运维专家的经验,从而成为通信领域的专家。
综上所述,我们需要底层智能网元、系统数字化建模、领域知识、API治理以及大模型强大的推理能力的结合,让网络迈向L4级“自动驾驶”。
谢谢!


