这次坦诚的分享,不仅让我们一睹了全球最大云计算巨头深厚的硬件基础设施基础,也让我们全面了解了从CPU研发策略、先进封装、背面供电、AI芯片脉动阵列到芯片的方方面面。互联,人工智能网络中的各种底层技术创新。尤其对于云计算基础设施和数据中心芯片设计从业者来说,有很多经验和想法值得细细品味。

会议期间,亚马逊云技术计算和网络副总裁Dave Brown还与智动智等多家媒体就基础设施和芯片研发的策略和细节进行了进一步沟通。他告诉智东智,基本上所有的设计都会围绕生成式AI展开。 AWS透露,这是其首款采用3nm工艺的芯片,计算能力是上一代的两倍,功耗降低40%。然而,目前披露技术细节可能很流行。早晨。他还透露,亚马逊云技术预计明年将逐步公布更多细节。
1. CPU设计理念:不为基准测试而构建内核
亚马逊云科技自主研发的服务器CPU和AI芯片已在其数据中心落地,并被多家知名IT公司使用。就连苹果公司也是它的客人。苹果等AI服务的建设背后,采用的都是亚马逊云科技自研的芯片。
据Dave Brown介绍,亚马逊云技术数据中心使用的服务器CPU中,近两年新增CPU产能中超过50%是其自研的服务器CPU芯片。亚马逊 Prime Day 是全球最大的购物节之一,有超过 250,000 个 CPU 来支持运营。

2018年,亚马逊云科技看到了Arm内核的快速发展,并提出了将这一技术曲线与亚马逊云科技客户的需求相结合,开发定制通用处理器的想法。由此诞生,它的推出和实施也带来了Arm芯片真正进入数据中心的时刻。
如今,几乎所有亚马逊云技术客户都广泛使用它。前 1000 个 EC2 客户中有 90% 开始使用它。
是目前最强大的亚马逊云技术自研服务器CPU。每个核心提供 30% 以上的计算能力。 vCPU数量和内存数量是上一代的三倍。特别适合数据库大、分析复杂等要求最高的企业。工作量。

Dave Brown 强调,在设计芯片时,亚马逊云技术并不是为了赢得基准测试而竞相竞争,而是专注于实际的工作负载性能。
在他看来,业界对优化基准的热情就像“通过百米冲刺训练马拉松”。真实工作负载的行为与简洁的基准测试完全不同。它们是混乱且不可预测的,真实工作负载遇到的问题可能与微基准测试完全不同。

例如,理论上性能比提高了30%,但在测试Nginx时,性能提高了60%之多,因为亚马逊云技术大大减少了分支错误预测。同样,微基准测试分数比上一代提高了 25%,运行真实 MySQL 工作负载的性能提高了整整 40%。

现代CPU就像一个复杂的汇编管道,前端获取和解码指令,后端执行它们。
在评估性能时,亚马逊云技术会考察不同工作负载对CPU微架构的压力,比如工作负载是否对前端停顿敏感,前端停顿受分支数量、分支目标等因素影响、或指令、或后端停顿受L1、L2和L3缓存中的数据以及指令窗口大小的影响。
在每一代产品中,客户只需切换到最新的实例类型即可立即看到性能的改进。


在安全性方面,亚马逊云技术还对PCIe链路进行了Nitro加密,实现更极致的全流程安全防护。

2、高性能芯片设计关键黑科技:先进封装和背面供电
几年前,封装很简单,基本上是封装单个芯片并将其连接到主板的方法。但现在这个解决方案已经变得更加先进。您可以将先进封装视为使用称为中介层的特殊设备将多个芯片连接在一个封装中。

转接器本身实际上是一个微型主板,它提供的芯片连接能力是普通 PCB 主板 10 倍的带宽。
两者均采用先进的封装技术。它们有 7 个,中间的大芯片是计算核心,外围的小芯片做一些事情,比如允许芯片访问内存和系统总线的其他部分。通过分离计算核心,亚马逊云技术有效地将核心数量增加了 50%。

这种方法很有帮助,但在引入AI芯片设计时会遇到一些挑战。
2018年,在看到加速器实例和深度学习趋势后,亚马逊云技术决定打造一款AI芯片。其首款自研AI芯片于2019年推出,可有效降低小型推理工作负载的成本。例如,亚马逊 Alexa 通过迁移到它节省了大量资金。
2022年,亚马逊云技术推出了首款自主研发的AI训练芯片,并实现了运行在其上的工作负载约50%的节省。

亚马逊云技术高级副总裁 Peter 在 re: 大会上展示了这个包裹,里面并排有两颗计算芯片。其计算芯片中的晶体管数量是计算芯片的2.2倍。

为了在系统上获得最多的计算和内存,请使用先进的封装或制造技术来创建大型芯片。事情就是这样完成的。但这遇到了第一个工程极限——芯片制造的尺寸限制约为800平方毫米。

每个计算芯片旁边的两个芯片是 HBM 内存堆栈,每个计算芯片通过 CoWoS-S/R 封装与两个 HBM 堆栈通信。通过堆叠芯片,可以将更多的内存装入同一区域,从而消耗和释放更少的能量。

那么为什么封装不能做得更大呢?这就是第二个限制所在。
如今的封装实际上被限制为最大芯片尺寸的大约 3 倍。如果取出计算芯片和 HBM,可以看到带有微凸块的中间层,用于连接芯片和中介层。


这是亚马逊云科技芯片团队制作的图片。他们沿着紫色线小心地切割芯片的横截面,然后使用显微镜从侧面放大图像。左上角是计算芯片,旁边是HBM模块。 HBM 模块层均位于薄连续晶圆上。芯片和中间层顶部之间的电连接非常小,每个约 100 μm,比细盐粒还小。
为了使芯片保持稳定的连接,必须限制封装尺寸。
同时,还引入了背面供电,将电源线移至晶圆背面,以减少布线拥堵。

半导体利用微小电荷的存在或不存在来存储和处理信息,当芯片经历电压下降时,它们通常必须等待供电系统进行调整。芯片需要提供大量的能量来完成计算任务。为了在低压下传输所有能量,需要使用大电线来减少电路传输长度,从而避免所谓的电压降。
3. 打造最强AI硬件巨兽背后的技术秘密
训练更大的模型需要构建更好的人工智能基础设施和更强大的服务器集群。这需要更好的AI芯片和AI网络。
在re:大会上,亚马逊云技术发布了多款重磅AI硬件产品。
一是亚马逊与亚马逊合作打造的拥有数十万芯片的超级服务器集群。该集群的计算能力将是目前用于训练其领先模型的集群的五倍。
第二个是超级服务器,可以训练和部署世界上最大的模型。连接4个计算节点,集成64颗芯片,峰值算力扩展至83.,稀疏算力扩展至332.,单实例计算、内存、网络性能提升4倍。

第三个是亚马逊云技术迄今为止最节能的机器学习训练服务器——服务器。服务器拥有16颗芯片,单个计算节点可提供20.0%的算力。芯片驱动的 EC2 Trn2 实例也正式上市,与当前 GPU 驱动的实例相比,性价比提高 30% 至 40%。

这些芯片通过超快速互连技术连接在一起。
在芯片设计方面,Dave Brown解释了CPU、GPU、NPU三类芯片在微架构上的差异。
CPU的目标是快速执行大量复杂的逻辑,每个缓存对应一个控制引擎和一个执行引擎。

GPU主要用于数据并行,控制单元较少,执行单元较多。操作过程中会涉及到一些数据在cache和HBM内存之间的切换。


为了减少无效内存的使用,亚马逊云技术芯片采用了脉动阵列( array)架构,这与谷歌TPU完全相同。它直接传输计算结果,可以降低内存带宽要求。

在生态建设方面,亚马逊云科技为其自研AI芯片提供了专用的新型编译语言接口(NKI),用于方便开发者直接对其AI芯片进行深度调试,从而更充分地挖掘AI芯片的潜力。芯片性能。

单片机的性能虽强,但在实际实现中未必有效。要支持业界最大规模的大模型训练和推理,必须能够在大量芯片互联时提高系统级算力利用率。
亚马逊云技术自主研发的芯片到芯片互连技术,可以将多台服务器组合成一台逻辑服务器,带宽为2TB/s,延迟为1μs。

与传统的高速互联网协议网络不同,服务器可以直接访问彼此的内存,从而创建“超级服务器”。
Peter 还花时间详细了解了为什么大型模型推理变得越来越重要,以及它对人工智能基础设施提出了哪些新要求。
大型模型推理有两个工作负载 - () 和 token 生成。预填充是输入编码,其中处理提示和其他模型输入,为令牌生成做好准备。此过程需要大量的计算资源将输入转换为传递到下一个过程的数据结构。完成后,计算出的数据结构将传递到第二个推理工作负载,后者生成令牌。

令牌生成的有趣之处在于,模型按顺序生成每个令牌,一次一个。这对AI基础设施提出了截然不同的要求。每次生成令牌时,都必须从内存中读取整个模型,因此它对内存总线产生了大量需求,但它只使用了少量计算,几乎与预填充工作量相同。恰恰相反。
这些工作负载差异对人工智能基础设施意味着什么?一旦开始生成代币,它们的生成速度只需比人类的阅读速度更快。这不是很快,但随着模型越来越多地在工作流程中使用,需要在进入工作流程的下一步之前生成整个响应。所以客户现在关心的是快速的预填充和快速的代币生成。

对真正快速推理的渴望意味着人工智能推理工作负载也寻求使用最强大的人工智能服务器。这两种不同的工作负载是互补的。预填充需要更多的计算,令牌生成需要更多的内存带宽,因此在同一个强大的人工智能服务器上运行它们可以帮助实现出色的性能和效率。
这就解释了亚马逊云技术推动自研AI服务器和集群的核心驱动力。
4. 如何构建AI网络?架构、定制光纤电缆和插头、混合路由协议
云网络需要快速扩展以适应增长,亚马逊云技术每天都在向世界各地的数据中心添加数千台服务器。但人工智能的扩展速度更快。
Peter表示,亚马逊云技术的云网络已经实现了99.999%的可靠性。人工智能工作负载对规模、速度和可靠性有更高的要求。如果AI网络出现短暂的中断,整个集群的训练过程可能会延迟,导致资源闲置和训练时间延长。


如何基于云网络创新构建AI网络?亚马逊云技术构建网络。
物理架构与传统的CLOS网络架构没有太大区别。亮点是实现了传输带宽和10μs网络延迟,可以连接起来形成超级集群,可以用于训练。

下图显示了亚马逊云技术在不同网络结构中安装的链接数量,其中过去12个月安装的链接数量超过300万个。

结构如下图所示,采用简化的无线缆机箱设计。左边有8张Nitro卡,右边有2张加速器。

由于大量光纤电缆进入机架,构建如此密集的网络结构需要非常精确的互连交换机,并且挑战的复杂性也随之增加。

针对复杂的布线问题,亚马逊云技术开发了一些特殊的光纤电缆和光纤插头,并为超大规模集群创建了新的网络路由协议。

其中一项创新是开发定制光纤干线电缆。您可以将其视为一条超级电缆,将 16 根单独的光纤电缆组合成一个坚固的连接器,从而大大简化了组装过程并消除了连接错误的风险。

使用主干连接器可将 AI 机架上的安装时间减少 54%,并使其看起来更干净。

还有一种定制光纤插头——Optic Plug。

这种巧妙的低成本设备就像一个微型信号反射器,可以在机架到达数据中心之前对网络连接进行全面的测试和验证。这意味着当服务器到达时,无需浪费时间进行调试或布线。
此外,即使是微小的灰尘颗粒也会显着降低完整性并导致网络性能问题。光纤插头具有双重保护密封,可防止灰尘颗粒进入光纤连接。
最后的挑战是提供更高的网络可靠性。

亚马逊云技术对光链路的可靠性进行了诸多优化,将故障率降低至0.002以下。

AI网络最大的故障源是光链路。光链路是通过电缆发送和接收光信号的微型激光模块。这些故障无法完全消除,因此需要考虑如何减少故障的影响。
每个网络交换机都需要数据来告诉它们如何路由数据包。在人工智能网络中,这张地图可能需要考虑数十万条路径。每次光链路发生故障时,都需要更新映射。
如何快速可靠地做到这一点?最简单的方法是集中管理映射。
优化网络听起来很吸引人,但当网络规模扩大时,集中控制就成为瓶颈。检测故障可能很困难,交换机更新可能非常慢,并且中央控制器是单点故障。这就是为什么大型网络通常使用 BGP 和 OSPF 等协议进行分散的原因。
然而,去中心化的解决方案也并不完美。在大型网络中,当链路出现故障时,网络交换机需要花费大量时间进行协作并为网络寻找新的最佳映射。
也就是说,当面对超大规模的集群组网时,无论是集中式还是分布式的传统路由协议都面临着挑战。
当面临下一个最佳选择时,需要开辟一条新道路。对此,亚马逊云技术开发了一种新的混合网络路由协议SIDR()。通过结合集中式和分布式控制的优点,可以在短时间内重新规划网络路径,为超大规模集群提供更好的快速故障检测、响应和恢复能力。
SIDR可以简单地理解为允许一个中央规划者将网络分解成一个可以下推到网络中所有交换机的结构。这样,当他们发现故障时,他们就可以快速、自主地做出决定。因此,SIDR 可以在 1 秒内响应故障,速度比亚马逊云技术网络上的其他替代方案快 10 倍。其他网络可能仍在重新计算路由,并且网络已恢复工作。

结语:运达昌自研芯片的风向标
作为推出自研芯片最成功的云计算公司之一,亚马逊云科技的芯片设计经验、自研芯片对云业务的实际影响以及迭代创新的方向一直备受关注。在接受智西西等媒体采访时,Dave Brown还总结了亚马逊云科技自研芯片的一些关键优势,包括低成本、大规模、快速实施、稳定可靠等。
在成本方面,如果成本能够比H100降低50%,这对客户来说可能是非常有吸引力的。
在规模方面,亚马逊云技术的规模保证了其芯片能够正常运行,并且在推出前会做大量的测试,以确保芯片一旦推出就能够成功,并且不需要撤回硬件。
规模更大还意味着更容易获得所需的容量。 Dave Brown提到,亚马逊云技术与英特尔、台积电等公司合作顺利,相信台积电在美国凤凰城投资建厂是明智的选择。亚马逊云技术致力于供应链多元化,是台积电最大的客户之一。它还一直与英特尔密切合作,互相帮助设计创新,预计不会受到领导层变动的影响。
落地后,亚马逊云技术有专门的团队负责立即将芯片放入服务器中。中间没有一两个月的延误,所以可以缩短落地时间。有足够好的芯片来支持大语言模型的客户。火车。
还有完整的产品组合和可靠的服务。亚马逊云技术不仅提供芯片,还提供存储、服务器、API、安全、网络等,如此丰富的组合是其他供应商难以提供的。在稳定性方面,亚马逊云技术也有优势。及时诊断和修复遇到的问题,确保服务不受影响,赢得了云服务客户的信任。
生成式人工智能浪潮推动下游市场对更高性能、更高性价比、更灵活、可定制的人工智能基础设施提出强烈需求。亚马逊云技术在AI基础设施底层技术和工程上的探索和创新,正在为业界提供优秀的参考模型,不仅能够适应客户业务需求、降低系统复杂度、提高供应链话语权。


