现在,由于GPU的设计缺陷,不得不将其交货时间推迟3个月甚至更长时间。
独家报道称,台积电工程师在最近几周准备量产芯片时发现了这一缺陷。

就在上周,黄仁勋在接受采访时表示, 已经向全球客户提交了工程样品。
他看起来非常放松,没有表现出任何意外的延误。
那么,芯片设计的缺陷到底在哪里呢?
GB200 包含 2 个 GPU 和 1 个 Grace CPU。问题出在连接 2 个 GPU 的关键电路上。
正是这个问题导致台积电GB200生产良率下降。

最新芯片的延迟发货意味着,对于 meta、谷歌、微软等主要科技公司来说,AI 训练过程将受到影响。
而且其数据中心的建设也将不可避免地被推迟。
据称,预计芯片将于明年第一季度开始大规模出货。
最新报告还详细介绍了所面临的技术挑战、延迟发货后的时间表以及新系统MGX Ultra NVL36。

推迟到三月,非常悲伤
记得在GTC 2024大会上,黄仁勋手捧最强架构GPU,向世人宣布了最强性能猛兽。
今年5月,他公开表示“我们计划在今年晚些时候出货大批量基于该架构的芯片”。
他甚至在财报会议上自信地表示,“今年我们的收入将非常可观。”
股东对 GPU 寄予厚望。

分析师预计,这些芯片将为英伟达的数据中心带来收入,从 2024 年的 475 亿美元增至 2025 年的 2000 多亿美元。
换句话说,该系列的GPU对未来的销量和收入起着决定性的作用。
没想到,设计缺陷直接影响了今年下半年和明年上半年的生产目标。
参与芯片设计的内部人士透露,正在与台积电合作进行测试芯片生产,以尽快解决问题。
不过目前的补偿措施是继续延长该系列芯片的出货量,并在今年下半年按计划加速GPU的生产。
花费数十亿美元,人工智能培训却被推迟
不仅如此,这种连锁效应将对大型模型开发商和数据中心云服务商造成致命打击。
为了训练AI,meta、微软、谷歌等金融赞助商已斥资数百亿美元订购大量芯片。
已订购了超过 400,000 台 GB200,外加服务器硬件, 订单的总价值远远超过 100 亿美元。
今年,该巨头预计将在芯片和其他设备上花费约 500 亿美元,较去年增长 50% 以上。
meta 也下了至少价值 100 亿美元的订单,而微软的订单在最近几周增加了 20%。
不过,这两家公司的具体订单规模目前尚不清楚。
知情人士透露,微软计划在2025年第一季度之前准备好5.5万到6.5万块GB200芯片。
而且微软管理层原计划在1月25日向微软提供驱动服务器。

现在看来,原计划需要推迟至3月或者明年春天。
按照原计划,他们将于2025年第一季度开始运营新的超级计算集群。
包括AI公司在内的众多企业,都在等待利用新芯片来开发下一代的LLM。
由于训练大型模型需要多倍的计算能力,它们可以更好地回答复杂的问题,自动执行多步骤任务,并生成更逼真的视频。
可以说,下一代超级AI依赖于的最新AI芯片。
历史上罕见的延迟
不过,如此大规模的芯片订单延迟不仅出乎所有人的意料,而且也很罕见。
台积电原计划在第三季度开始量产芯片,并从第四季度开始向客户大规模出货。
业内人士透露,目前该芯片预计将在第四季度进入量产,如果不出任何意外,服务器将在后续季度大规模出货。

事实上,早在 2020 年, 旗舰 GPU 的早期版本就因某些问题而不得不推迟发布。
但当时面临的风险较低,客户并不急于接单,数据中心的利润也相对较小。
这次在量产前发现重大设计缺陷,确实非常罕见。
芯片设计人员通常会与台积电的晶圆厂合作,进行多次生产测试和模拟,以确保产品的可行性和制造流程的顺利进行,然后才能接受客户的大订单。
台积电停止一条生产线并重新设计一款即将量产的产品的情况并不常见。
他们为GB200的量产做了充分的准备,包括分配专用的机器产能。
现在,机器人必须处于闲置状态,直到问题解决。
该设计缺陷还会影响 服务器机架的生产和交付,因为负责服务器的公司必须等待新的芯片样品才能完成服务器机架设计。
被迫发布翻拍版
技术挑战也迫使紧急开发新的系统和组件架构,例如MGX Ultra NVL36。
这一新设计还将对数十家上下游供应商产生重大影响。

作为系列中技术最先进的芯片,在系统层面对GB200做出了大胆的技术选择。
该 72-GPU 机架的每机架功率密度达到前所未有的 125kW,而数据中心大多数机架的功率密度为 12kW 至 20kW。
如此复杂的系统还引发了许多与电力传输问题、过热、水冷供应链增长、快速断开水冷系统泄漏以及各种电路板复杂性问题相关的问题,让一些供应商和设计师措手不及。
不过,这并不是减产或者进行重大路线图调整的理由。
真正影响出货量的核心问题是架构本身的设计。

该封装是首个采用台积电CoWoS-L技术进行量产设计的封装。
CoWoS-L 需要使用带有局部硅互连 (LSI) 和嵌入式桥接芯片的 RDL 中介层来桥接封装内各种计算和存储之间的通信。

与目前使用的CoWoS-S技术相比,CoWoS-L要复杂得多,但它代表着未来。
和台积电制定了非常积极的增长计划,目标是每季度生产超过一百万块芯片。
但各种问题也随之出现。
其中一个问题是,将多个细间距凸块桥嵌入有机中介层和硅中介层可能会导致硅芯片、桥、有机中介层和基板之间的热膨胀系数 (CTE) 不匹配,从而导致翘曲。

桥接芯片的布局需要非常高的精度,特别是两个主计算芯片之间的桥接,因为这些桥接对于支持 10 TB/s 的芯片到芯片互连至关重要。
据传,桥接芯片存在重大设计问题,同时顶部几层全局布线金属层和芯片凸块也需要重新设计,这是延迟数月的主要原因之一。
另外一个问题是台积电没有足够的CoWoS-L产能。
台积电在过去几年建设了大量CoWoS-S产能,其中占据了大部分份额。
现在,随着 迅速将需求转向 CoWoS-L,台积电正在为 CoWoS-L 建设新的晶圆厂 AP6,并改造 AP3 现有的 CoWoS-S 产能。
为此,台积电需要对老旧的CoWoS-S产能进行改造,否则这些产能就会闲置,CoWoS-L的增长速度就会比较慢。而且这个改造过程会让增长变得非常不均衡。
结合这两个问题,台积电显然无法供应足够的芯片来满足英伟达的需求。
因此将几乎所有产能都集中在GB200 NVL 36x2和NVL72机架规模系统上,并取消了B100和B200搭载的HGX计算模块。

作为替代,将推出基于B102芯片,并配备4层HBM显存的GPU——B200A,以满足中低端AI系统的需求。
有趣的是,这款B102芯片也将在中国“特别版”B20上使用。
由于B102是单片计算芯片,不仅可以在CoWoS-S上进行封装,还可以让台积电以外的其他供应商进行2.5D封装,比如Amkor、ASE SPIL和三星。
B200A 将提供 700W 和 1000W HGX 规格,配备高达 144GB 的 HBM3E 内存和高达 4 TB/s 的带宽。值得注意的是,这比 H200 的内存带宽要低。

接下来是中级增强版-Ultra。
标配的CoWoS-L Ultra也就是B210或者B200 Ultra,不仅在显存刷新上实现了高达288GB的12层HBM3E,FLOPS性能更是提升高达50%。
B200A Ultra 将具有更高的 FLOPS,但不会对视频内存进行任何升级。
除了与原始 B200A 相同的 HGX 配置外,B200A Ultra 还引入了新的 MGX NVL 36 外形尺寸。

当使用少于 5,000 个 GPU 进行训练工作负载时,HGX 性能/TCO 非常出色。
尽管如此,由于其更灵活的基础设施,MGX NVL36 是许多下一代车型的理想选择。
由于Llama 3 405B已经接近H200 HGX服务器的极限,所以下一代MoE LLAMA 4肯定放不进单个HGX服务器节点。
结合MGX B200A Ultra NVL36的售价预估,相信HGX B200A的销量不会太好。
MGX Ultra NVL36 架构
MGX NVL36 SKU 是一款风冷 40kW/机架服务器,配备 36 个完全互连的 GPU。
每个机架将配备9个计算托盘和9个托架。每个计算托盘为2U,包含1个Grace CPU和4个700W B200A GPU。每个1U托盘只有1个交换机ASIC,每个交换机ASIC的带宽为28.8 Tbit/s。
相比之下,GB200 NVL72/36x2 包含 2 个 Grace CPU 和 4 个 GPU,每个功耗为 1200W。

由于每个机架仅消耗 40kW 并且可以进行风冷,现有数据中心运营商可以轻松部署 MGX NVL36,而无需重新调整其基础设施。
与 GB200 NVL72/36x2 不同,4 个 GPU 对 1 个 CPU 的比例意味着每个 GPU 只能获得一半的 C2C 带宽。
因此MGX NVL36无法采用C2C互连,而是需要采用集成的-8 PCIe交换机来完成GPU与CPU之间的通信。
此外,与所有其他现有 AI 服务器(HGX H100/B100/B200、GB200 NVL72 / 36x2、MI300)不同,每个后端 NIC 现在将负责 2 个 GPU。
这意味着,虽然 -8 NIC 设计可以提供 800G 的后端网络,但每个 GPU 只能访问 400G 的后端/RoCE 带宽。(也是 GB200 NVL72/36x2 的一半)

GB200 NVL72/ Tray 的核心是主板,其中包含 2 个 B200 GPU 和 1 个 Grace CPU。
由于每个计算托盘配备 2 块板,因此总共将携带 2 个 Grace CPU 和 4 个 1200W GPU。

相比之下,MGX NVL36 的 CPU 和 GPU 将位于不同的 PCB 上,类似于 HGX 服务器的设计。
但与 HGX 服务器不同的是,每个计算托盘中的四个 GPU 将分解为两个 2-GPU 板,每个板都有一个类似板的 Mezz 连接器。
然后,这些 Mezz 连接器将用于连接 -8 中板,并将 -8 ASIC 与其集成的 PCIe 交换机连接到 GPU、本地 NVMe 存储和 Grace CPU。
由于 -8 ASIC 非常靠近 GPU,因此 GPU 和 -8 NIC 之间无需重新定时器。HGX H100/B100/B200 就是这种情况。
另外,由于 Grace CPU 与 GPU 之间没有 C2C 互连,因此 Grace CPU 将位于一块完全独立的 PCB 上,即 CPU 主板。该主板上将包含 BMC 连接器、CMOS 电池、MCIO 连接器等。


每个 GPU 的带宽将为每方向 900GB/s,与 GB200 NVL72 / 36x2 相同。这显著增加了每 FLOP 的 GPU 到 GPU 带宽,使 MGX NVL36 在某些工作负载下具有优势。
由于只有一层交换机连接36个GPU,因此只需要9个ASIC即可提供无阻塞网络。
此外,由于每个 1U 交换机托盘只有一个 28.8Tbit/s ASIC,因此非常容易进行空气冷却。例如,像 -2 这样的 25.6Tbit/s 1U 交换机就可以做到这一点。

在后端网络上,由于每个计算托盘只有 2 个 800G 端口,因此它将使用 2 轨优化的行尾网络。
每8个NVL36机架将会有2个X800交换机。

以每个GPU 700W为例,NVL36每个机架的功耗可能在40kW左右,也就意味着2U空间内有4kW的散热。
这将需要专门设计的散热器和高速风扇进行空气冷却。

部署 MGX NVL 36 的挑战
由于NVL36完全依赖风冷,2U机箱前端除了PCIe网卡外,还必须有专用的PCIe交换机,这将大大增加热管理的挑战。
因此,在 NVL36 上做定制后端 NIC 基本上是不可能的。
由于许多机器学习依赖项都是针对 x86 CPU 进行编译和优化的,并且 Grace CPU 和 GPU 位于不同的 PCB 上,因此很可能还会有 x86 + B200A NVL36 版本。
不过,x86 CPU虽然可以提供更高的峰值性能,但其功耗也会高出100W,大大增加了OEM的热管理挑战。
另外考虑到Grace CPU的销量,即使推出x86 B200A NVL36解决方案,他们也会推动客户选择NVL36。
当然,NVL36也有自己的卖点——每个机架40kW的风冷系统。
毕竟,许多客户无法承担每机架耗电约 125 kW 的 GB200 NVL72(或总功耗超过 130 kW 的 36x2)所需的液体冷却和电源基础设施。
H100的TDP为700W,目前采用4U高的3DVC,而1000W的H200则采用6U高的3DVC。
相比之下,MGX B200A NVL36 同样拥有 700W 的 TDP,但机箱只有 2U,空间相当有限。因此,将需要一个水平延伸的阳台式散热器来增加散热器的表面积。

除了需要更大的散热器之外,风扇还需要提供比 GB200 NVL72/36x2 2U 计算托盘或 HGX 8 GPU 设计更强大的气流。
据估计,在 40kW 机架中,系统总功率的 15% 至 17% 将用于内部机箱风扇。相比之下,HGX H100 风扇仅消耗系统总功率的 6% 至 8%。
由于需要大量风扇功率才能使 MGX NVL36 正常工作,因此这是一种非常低效的设计。
为什么 NVL64 被取消
在 最终确定 MGX NVL36 之前,他们还试图设计一个风冷 NVL64 机架——它将消耗 60kW 的功率并搭载 64 个完全互连的 GPU。
然而,经过广泛的工程分析后,该产品被认为不可行,不会上市。
在建议的 NVL64 SKU 中,有 16 个计算托盘和 4 个托盘。每个计算托盘为 2U,包含 1 个 Grace CPU 和 4 个 700W GPU,就像 MGX NVL36 一样。
主要的修改是在托盘中 - 并没有将 GB200 的每个托盘从 2 个减少到 1 个,而是试图将其增加到 4 个 ASIC 交换机。

显然,仅靠空气来冷却如此巨大的机器,功耗如此之高,几乎是不可能的。( 提出 60kW,预计功耗为 70kW)
这通常需要使用后门热交换器,这违背了风冷机架架构的初衷,因为它仍然依赖于液体冷却供应链。此外,这种解决方案在大多数数据中心仍然需要进行设施级改造,以将冷却水输送到后门热交换器。
另一个非常棘手的散热问题是,托盘将在 1U 机箱中包含四个 28.8Tbit/s ASIC 交换机,需要近 1500W 的冷却功率。
单独来看,在 1U 机箱中实现 1500W 并不困难。但是,如果考虑到从 ASIC 交换机到背板连接器的飞线会阻挡大量气流,冷却挑战就变得十分严峻。
由于需要以极快的速度将风冷式 MGX NVL 机架推向市场, 试图在设计开始后的六个月内交付产品。然而,对于一个已经达到极限的行业来说,设计新的交换托盘和供应链非常困难。

NVL64 的另一个主要问题是,每个机架有 64 个 800G 后端端口,但每个 XDR-X800 Q3400 交换机都配备了 72 个 800G 下行端口。换句话说,每个交换机将有 16 个 800G 端口未使用。
昂贵的后端交换机上若有未使用的端口会严重影响网络性能和总体拥有成本,因为交换机价格昂贵,尤其是像 -X800 这样的高端口密度模块化交换机。

此外,在同一域中使用 64 个 GPU 并不理想。
从表面上看,64 似乎是一个好数字,因为它有 2、4、8、16 和 32 作为公因数,非常适合不同的并行配置。
例如,张量并行度TP=8,专家并行度EP=8,或者TP=4,全分片数据并行度FSDP=16。
不幸的是,由于硬件不可靠性, 建议每个 NVL 机架至少保留 1 个计算托盘作为备用,以便 GPU 可以离线进行维护并用作热备用。
如果每个机架没有至少 1 个热备用计算托盘,即使 1 个 GPU 发生故障也会导致整个机架被迫在相当长的一段时间内停止服务。这类似于 8-GPU HGX H100 服务器上的 1 个 GPU 发生故障会迫使所有 8 个 H100 停止服务的情况。
如果至少将一个计算托盘保留为热备用,则每个机架只有 60 个 GPU 可以处理工作负载,从而消除了上述优势。

NVL36×2 或 NVL72 配备了 72 个 GPU,这意味着用户不仅可以使用 2 个计算托盘作为热备,而且每个机架上仍有 64 个 GPU 可用。
NVL36 可以有一个计算托盘作为热备用,然后有 2、4、8、16 个作为并行解决方案的共同因素。
对供应链的影响
据猜测,GB200 NVL72/36x2的出货量将会减少或者延迟,B100、B200 HGX的出货量也会大幅减少。
同时,出货量将从2024年第四季度到2025年第一季度增加。
此外,下半年GPU订单将从HGX和GB200转向MGX NVL36。
这将影响所有 ODM 和零部件供应商,因为 2024 年第三季度和 2025 年第二季度之间的出货量和收入计划将发生重大变化。
参考:
本文来自微信公众号“新智元”,好坤淘子编辑,36氪经授权发布。


