6月26日,据The Next报道,AMD执行副总裁兼数据中心解决方案事业部总经理在接受采访时表示,AMD将帮助打造全球最大的单一人工智能(AI)训练集群,该集群将集成多达120万个GPU。
120万个GPU是一个惊人的数字,考虑到全球最强大的超级计算机配备的GPU数量只有37,888个,这意味着AMD支持的AI训练集群的GPU规模将达到30倍以上。然而,没有透露哪个组织正在考虑构建这种规模的人工智能系统,但它确实提到“非常清醒的人”正在考虑在人工智能训练集群上花费数百亿到数千亿美元。

当今的 AI 训练集群通常由数千个 GPU 构建,这些 GPU 通过跨越多个服务器机架或更少服务器机架的高速互连连接。创建一个拥有多达 120 万个 GPU 的单片 AI 集群将意味着一个复杂的高速互连网络,其中包含延迟、功耗、硬件故障和许多其他似乎无法实现的问题。

例如,AI 工作负载对延迟非常敏感,尤其是尾部延迟和异常值,其中某些数据传输花费的时间比其他数据传输长得多,并会中断工作负载。此外,当今的超级计算机每隔几个小时就会面临 GPU 或其他硬件故障。当扩展到当今最大的超级计算机集群的 30 倍时。更重要的是,如此庞大的AI训练集群将产生极大的能耗,这不仅对稳定供电来说是一个大问题,对配套散热解决方案也是一个巨大的挑战。



