量子比特 |公众号
服务器CPU领域持续多年的核心数大战一举结束!
英特尔最新至强®6性能核心处理器(P核系列)超越了过去的单维度竞争,通过“维度增强”定义了新的游戏规则:
计算能力、存储能力都要全方位提升。做不到这一点的CPU在智能计算时代就不是好U。

过去,CPU升级往往需要在单芯片上集成更多核心,但这不可避免地受到工艺和芯片尺寸的限制,更不用说IO和内存的匹配问题。
此次,至强®6性能核心处理器采用分离式模块化设计,将计算芯片单元与I/O芯片单元解耦。可以灵活组合不同数量的计算单元,实现核心数量和内存、IO的扩展。同步增强,确保更好的整体性能和能源效率。
用最直观的方式感受一下:
2023年12月15日,英特尔数据中心与人工智能集团副总裁陈宝利从裤兜里拿出了第五代至强®可扩展处理器,该处理器仍然只有64个核心。
2024年9月26日,正是陈宝利也从裤兜里拿出了至强®6性能核心处理器,却直接翻倍到了128核。
这两款处理器的外观和尺寸相似,可以轻松放入口袋,但性能却发生了质的飞跃。

具体来说,刚刚亮相的就是Xeon® 6性能核心处理器家族中的+顶级战力——Intel® Xeon® 6900P系列。
它拥有多达128个性能核心和504MB的大型三级缓存,更大更宽的内存支持,以及更多更快的IO能力。非常适合各种数据和计算密集型的应用任务,例如科学计算、海量数据处理、人工智能等。

看到这里,很多人可能会有疑问:要用CPU来跑AI吗?是不是因为GPU不行了?
,我们想说:有了这款CPU,你的GPU或者其他AI加速器将会更加强大!
谈这个话题,我们首先要谈的是AI服务器。
在生成式AI应用蓬勃发展的当下,AI服务器的重要性不言而喻。无论是大规模训练、推理,还是RAG等任务,都对其提出了更高的要求。
正如综合市场预测数据从侧面反映出的那样:
AI服务器市场规模已达211亿美元,预计2025年将达到317.9亿美元,2023年至2025年复合年增长率为22.7%。
我们都知道AI服务器中的GPU或者AI加速器非常重要,但很容易忽视CPU的作用。专为AI服务器或AI数据中心基础设施设计的真正优秀的CPU应该是什么样子?
英特尔®至强®6性能核心处理器可以说提供了正确的答案。
外媒甚至在评测后对英特尔的新款CPU给予了高度评价:
不仅仅是至强,还有至强。

嗯,用中文来说就是Intel Xeon,这次真的是Xeon(达到最强)。
那么英特尔® 至强® 6 高性能酷睿处理器如何解锁这一认可呢?
要强,为什么要这么强?
首先要谈的是计算能力。
此次Intel® Xeon® 6900P系列产品最引人注目的128核(三个计算芯片单元)是一大技术亮点,似乎符合以往的游戏规则。
通过核心数量的不同排列组合,至强®6性能核心处理器可以应对不同的场景,提供不同的核心型号。除了最高128核(6900P)的产品系列外,还有最高86核(2个计算芯片单元)、最高48核(1个计算芯片单元)和16核(1个计算芯片单元)产品系列。

在这种排列组合所使用的模块中,计算芯片单元采用Intel 3.0工艺,包括集成的网格、核心、缓存、内存控制器等,可以保证数据传输的一致性。
I/O芯片单元采用Intel 7工艺,包括UPI、PCIe、CXL和加速器引擎。
与第五代Intel® Xeon®产品不同,Xeon® 6将I/O和计算单元解耦,不仅可以轻松扩展核心数量,而且便于验证、重复和灵活使用。

此外,英特尔® 至强® 6 高性能酷睿处理器的亮点包括:

接下来要谈的是存储能力。
超越以往游戏规则的至强®6性能核心处理器的亮点就藏在其中。
它支持更快的 DDR5 内存 (/s) 和更宽的内存 (/s)。
仅用后者替换前者,就已经可以将科学计算和AI场景中的多项任务提升7%-33%。并且与之前的Xeon®CPU Max采用的HBM相比,内存的引入不仅在带宽和速度上有更明显的优势,而且其与CPU的解耦也更有利于用户灵活采购、配置和升级。

除了内存本身的性能外,存力还包括CPU和内存之间的互连技术。 Xeon® 6 引入了最新的 link 2.0 (CXL 2.0)。
CXL 2.0支持多种设备类型并向下兼容,可灵活扩展内存和存储设备。
对链路分叉的支持、更强的CXL内存分层支持以及设备的受控热插拔添加/移除为未来数据中心架构带来更多可能性。
更值得一提的是Xeon®6独有的“Flat”内存模式。 CXL内存和DRAM内存被视为单个内存层,允许操作系统直接访问这个统一的内存地址空间。
这种分层管理可以保证最大的内存使用效率,并在不修改软件的情况下利用CXL内存扩展。

如此对内存速度、带宽、容量和可扩展性的综合考虑,形成了至强®6性能核心处理器的独特竞争力。
具体到服务器设计,CLX2.0可支持每机8TB内存容量扩展,并提供384GB/s内存带宽扩展。

当然,至强®6性能核心处理器作为CPU也没有忘记它的作用。它将内存和计算能力的硬指标优势结合起来,转化为真正的优势,这就是它受欢迎的原因。
计算能力方面,除了更多核心之外,还有内置加速器和指令集更新带来的加成。

专注于AI加速的英特尔®高级矩阵扩展(英特尔®AMX)增加了对FP16数据类型的支持,目前全面覆盖int8、BF16和FP16数据类型。
其每个核心的矩阵乘法累加(MAC)运算速度可达2048 FLOPS(int8)和1024 FLOPS(BF16/FP16),可大幅提升AI推理和训练性能。
虽然英特尔®高级矢量扩展512(AVX-512)已经是老将了,但在拥有如此丰富的核心资源支持后,它仍然负责科学计算、数据库和AI任务中的矢量计算。
这些加速器升级换代的结果是多负载性能普遍翻倍,如下图所示。在AI领域,尤其是运-7B的提升直接达到了上一代产品的3.08倍。

最后,在硬件增强安全特性方面,Intel早期的解决方案是SGX,但从第五代Xeon®开始,增加了TDX解决方案。这些看似难以通过数值证明其价值的技术,实际上是不可或缺的,是确保关键数据和应用更加安全可靠的压舱石。
安全恰恰是当前AI数据中心或智能计算中心等涉及海量数据和数千个机密隐私问题的环境中很少被提及的方面,但却是应该补充和巩固的环节。

说了这么多,如果要用一句话来概括至强®6性能核心处理器,尤其是6900P系列产品的定位,那就是“更强的通用计算和AI加速”。

那么这款新处理器的具体用途是什么,性能又如何呢?
请继续阅读下文。
全能CPU:加速AI推理,引领异构计算
首先,至强®6性能核心处理器可以充当“独行侠”,直接加速AI推理,助力AI应用普及。
使用CPU加速AI推理的意义不是为了与GPU或其他专用加速器竞争终极速度或效率,而是在成本、采购、环境等一定条件下,使用CPU进行更广泛的部署和储备人才。更扎实、更容易应用的优势使得AI能够更快、更有效地落地。
考虑到这一总体目标,英特尔在软件生态系统和工作负载优化方面投入了大量精力,以确保用户能够充分发挥至强® 6 性能核心处理器的潜力。
例如,Intel与Intel等主流深度学习框架进行深度合作,将针对Intel CPU的优化集成到正式版本中,从而显着提升深度学习模型在Intel CPU上运行时的性能。上面提到的-7B分数就是这些努力的结果之一。
此外,至强®6性能核心处理器还可以作为“指挥官”,提升AI系统的整体实力。
这其实是很多用户比较熟悉的,也是Xeon®6性能核心处理器的主要应用方式。所谓“指挥员”是头节点CPU或主控CPU的别称。
如果采用Xeon®6性能核心处理器作为AI服务器的头部CPU,那么其在计算能力(更强的单线程性能)、存储能力(支持内存和CXL内存扩展能力)和I/ O(拥有更多的PCIe 5.0通道),可以更充分地利用和释放这些方面的优势和潜力。
它可以与 GPU 或专用 AI 加速器高效配合,处理数据预处理、数据传输共享和混合工作负载。

我们最初的问题终于有了一个更完整的答案,那就是至强®6性能核心处理器为何能被称为AI服务器或AI数据中心的“精选”甚至首选CPU?
正是因为它既可以单手加速AI推理,又可以中间协调提高异构系统的整体性能输出。
更不用说,它还可以处理许多传统但同样不可或缺的应用程序工作负载,例如前面提到的科学计算和数据库,以及构建高性能云基础设施等任务。
例如,作为科研机构,他们对科学计算有强烈的需求。测试表明,至强® 6 性能核心处理器在常见的科学计算工作负载上表现良好。

他们还认为内存支持将进一步突破传统DDR内存的性能瓶颈,促进数据密集型的科学发现。

在推出这款至强® 6 性能核心处理器时,英特尔还展示了其本地数据库软件合作伙伴科兰软件的成果。
英特尔营销集团副总裁兼总经理梁亚丽在介绍生态系统支持状况时表示:
基于我们的新产品,科兰软件构建了高性能的国产分布式数据库,其吞吐量比第五代Xeon®可扩展处理器提高198%。
值得一提的是,她的分享中有很多中国合作伙伴,他们都是各个领域的核心力量。尽管英特尔在产品研发方面做出了更多创新,但其商业模式上仍然严重依赖开放架构平台。产业合作。
Xeon® 6性能核心处理器发布时,数十家OEM、ODM、OSV和ISV同时推出新品,以及多家云服务提供商的支持。在英特尔看来,真正触达用户、提供价值的,是新产品。放大的基础。

搭建AI服务器,CPU不能成为短板
从上面列举的众多数据和用例可以看出,在人工智能应用加速落地、新推理计算范式、合成数据等当前趋势的推动下,人工智能算力需求越来越集中在推理和复合工作负载上。
这其中GPU或者专用加速器固然重要,但CPU作为整个系统的“指挥者”,决不能成为短板。
我们需要真正兼顾通用计算、AI服务器、AI数据中心场景的CPU产品。它不仅可以支持广泛的第三方GPU和AI加速器,并与它们结合形成强大的异构计算平台,还可以弥补GPU或专用加速器不能或不足的领域,提供更多样化的计算能力。和复杂的场景。灵活的算力选择,增强整个AI平台的稳定性、安全性和扩展性。

Intel® Xeon® 6性能核心处理器的出现,为AI计算带来了这样一个新的支点。
最后我们打个小广告:为了科普CPU在AI推理新时代的玩法,量子比特开设了“最“in”AI”专栏,将从技术科普等多个角度进行全面解读、行业案例、实用优化。
我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至整个AI平台或者全流程加速方面的实际效果。重点是如何更好地利用CPU来提高大模型应用的性能和效率。
要了解有关英特尔® 至强® 6 高性能核心处理器的更多信息,请单击链接立即获取产品简介


