Intel正式发布第三代Xeon Cooper Lake CPU:面向4路/8路服务器系统

Intel正式发布第三代Xeon Cooper Lake CPU:面向4路/8路服务器系统

         正如Intel在5月份的OCP Virtual Summit 2020上宣布的那样,在一个月后的今天,Intel正式发布了代号为“Cooper Lake”的第三代Xeon可扩展CPU。

         作为Cedar Island平台下的唯一一款CPU,Cooper Lake即延续了Cascade Lake CPU的一些特性,又增加了不少新的功能。Cooper Lake CPU使用了命名为Socket P+的新Socket,每个CPU对外出的UPI总线从3组增加到了6组。新CPU继续使用14nm工艺制程,每个CPU的最大核心数仍然维持在28个,但CPU最大TDP从上一代的205W增加到了250W,从而提供如Bfloat 16这样的新功能。Cooper Lake每个CPU可以支持的最大内存容量仍然为4.5TB,但在1DPC(DIMM Per Channel)模式下可以使用DDR4-3200内存。Cooper Lake CPU也可以与Intel第二代奥腾持久内存(Intel Optane DC Persistent Memory Module 200)配合使用,但只能用在App Direct模式下。

         在详细分析Intel Cooper Lake CPU的主要特性之前,还是让我们先来看看Intel Xeon CPU最新的Roadmap。按照Intel在2018Q3给出的Roadmap,基于14nm的Cooper Lake CPU应该在2019年推向市场,紧随其后的是在2020年推出基于全新10nm工艺的Ice Lake CPU。但由于Intel内部的各种原因,Cascade Lake CPU的发布时间推迟到了2019年,Cooper Lake CPU也对应地延后到2020年上半年发布。

2018Q3 Intel Xeon Roadmap

         不同于第二代Xeon平台(Purley)用一款CPU覆盖2路/4路/8路服务器设计,Intel第三代Xeon平台的Cooper Lake CPU主要针对4路/8路服务器设计,在今年底推出的Ice Lake CPU才是针对单路/2路服务器应用。直到2021年发布的Eagle Stream平台,Intel才会继续回到常规的节奏,用新一代Sapphire Rapids CPU覆盖从单路到8路的服务器设计。

2020Q2 Intel Xeon Roadmap

         根据Intel透露的信息,今年底将要推出的Ice Lake CPU最多具有38个核心,这意味着2路服务器系统可以提供76个核心/152线程。同时,Ice Lake CPU支持8个DDR4通道,当混合配置256GB DDR4 DIMM和512GB Intel Optane DCPMM 200系列内存时,单CPU可支持最大6TB内存,双路服务器则最多可以提供12TB内存。除此之外,Ice Lake将会是Intel Xeon系列里面首款支持PCIe Gen4速率的CPU。

         相对而言,使用Cooper Lake CPU的4路服务器最多可以提供112个核心/244线程、最大18TB内存容量(单CPU最大支持4.5TB内存),这一规格与Intel当前在售的Cascade Lake CPU完全相当。作为同一代的两款CPU,Cooper Lake更像是Cascade Lake的普通升级产品,而Ice Lake才是性能大幅提升的新一代产品。

Intel Ice Lake CPU早期工程样品

Intel Ice Lake CPU早期工程样品

         之所以Intel对2020年这一代Xeon CPU的规格做了如此大的调整,最主要的原因还是来自于竞争对手AMD的压力。随着AMD在2017年和2019年相继推出Naples和Rome两代EPYC处理器,单CPU具有64核心、8个DDR4通道、支持PCIe Gen4速率、支持单路服务器设计,这些硬件规格远超同时期的Intel Xeon CPU。再加上Intel在10nm工艺制程上迟迟无法突破,使用7nm工艺制程的AMD EPYC处理器具有了相当大的市场吸引力。为了应对AMD的挑战,Intel迫不得已调整了Whitley平台CPU的迭代计划,先推出针对4路/8路市场、小幅升级的Cedar Island平台Cooper Lake CPU,再推出针对2路主流市场、支持PCIe Gen4速率和8个DDR4通道的Whitley平台Ice Lake CPU,从而赶上AMD EPYC CPU的硬件规格。

2019-2021 Intel Xeon CPU发展轨迹

         当进入2021年之后,新一代的Sapphire Rapids CPU将全面支持最新的硬件技术(PCIe Gen5、UPI 2.0、DDR5、CXL等),从而使Intel再一次相对AMD具有性能优势。厘清上述发展脉络,能够帮助用户更好地理解Intel Xeon CPU从Cascade Lake到Cooper Lake,再到Ice Lake和Sapphire Rapids,这一路的内在演进机理。

         Ice Lake和Sapphire Rapids CPU距离我们还有一段时间,Cooper Lake CPU的新特性却是我们马上可以实际用到的东西。相比于上一代Purley平台的Socket P,Cooper Lake CPU使用的Socket P+将管脚数量从3647 pin增加到了4189 pin,增加幅度接近15%。增加的IO管脚数量为CPU提供了更多的功能,这也是CPU功耗从205W增加到250W的主要原因。

Intel第三代Xeon-SP处理器特性一览

         相比于Cascade Lake CPU,Cooper Lake CPU最大的特性变化就是增加了对Bfloat 16数据格式的支持,这是如Facebook这样的云计算厂家最感兴趣的地方。

Intel Cooper Lake CPU对Bfloat 16数据格式的支持

         Bfloat 16是一种介于FP16和FP32之间的数据格式,具有与FP32相同的数据范围,但数据精度却只与FP16相当。这意味着在相同的内存空间中,相比于FP32,Bfloat 16格式可以储存更多的数据。这有助于减少AI训练和推理过程中的数据搬迁次数。

Intel第三代Xeon处理器在AI性能方面的提升

         虽然Intel已经有了下一代Agilex FPGAXe GPUHabana Labs专用AI芯片专注于视频AI的Movidius芯片,但考虑到CPU的广泛使用,使CPU具有一定的AI训练和推理计算能力,能够让一部分用户不再需要去购买昂贵的GPU卡来获得AI算力。在发布第三代Xeon处理器的同时,Intel还推出了Stratix 10 NX FPGA,展示了Intel对于将AI算力在其芯片上广泛布署的重视。需要注意的是,这还不是基于10nm制程的下一代Agilex FPGA。

为AI功能优化过的Intel Stratix 10 NX FPGA

         在发布会上,Intel一共推出了11款第三代Xeon处理器。SKU列表上CPU的数量明显少于之前几代Xeon CPU的数量。相信在接下来的日子里,Intel还会继续向SKU列表中添加新的CPU种类。

Intel已经发布的第三代Xeon芯片SKU列表

         UPI总线数量的增加也是Cooper Lake CPU的一大亮点。在Purley平台的两代CPU上(Skylake & Cascade Lake),UPI总线只有3组。对于4路服务器,每个CPU与另外三个CPU之间各自通过一组UPI总线相连。对于2路服务器,两个CPU间则可以使用2组或3组UPI总线互联。

Purley平台CPU间UPI互联拓扑

当Cooper Lake CPU把UPI总线数量增加到6组的时候,相邻两个CPU之间全部都可以使用2组UPI总线互联了。这大大增加了CPU彼此之间的数据传输带宽。虽然Cooper Lake CPU上的UPI链路速率仍然维持在10.4Gbps,但随着Ice Lake CPU的到来,PCIe Gen4接口的使用将会推动UPI链路速率提升到11.2Gbps。

8路Cooper Lake CPU互联拓扑

         Cooper Lake CPU上第三个主要性能提升点在于内存方面。1DPC配置下,CPU可以支持DDR4-3200内存条;在2DPC配置下,CPU可以支持DDR4-2933内存条。需要注意的是,只有Platinum(铂金)等级的SKU才支持2DPC DDR4-2933 DIMM,更低等级的SKU则不支持。DDR4-3200内存条在如今已经非常成熟,Intel的这一操作,有可能是想把对DDR4-3200 DIMM的全面支持留给不久之后推出的Ice Lake CPU。毕竟,主打两路服务器设计的Ice Lake CPU,其销量会远大于针对4路/8路服务器的Cooper Lake CPU。

Supermicro支持Cooper Lake CPU的SYS-240P-TNRT服务器

         Intel CPU里的内存控制器除了要支持标准的DDR内存条之外,还要支持自家的Optane DCPMM(奥腾持久内存)。在Cooper Lake CPU发布的同时,Intel也推出了命名为Optane DC Persistent Memory 200的第二代奥腾持久内存,代号Barlow Pass,其容量有128GB、256GB和512GB三种。

Intel Optane DC Persistent Memory 200规格

         相比于第一代奥腾持久内存(Apache Pass),Intel宣称Barlow Pass每通道性能提升了38%,带宽增加了25%。之所以取得这样的性能提升,主要归因于DDR4-3200内存颗粒的使用。

Intel Optane DC Persistent Memory 200实物

         Barlow Pass支持3200MT/s的速率,也支持Memory Mode模式,但在与Cascade Lake CPU和Cooper Lake CPU配合使用时,并不能同时发挥这两点优势,这是需要特别注意的地方。Intel对此给出了详细的解释:

1、Barlow Pass is limited to 2666MT/s support, as it is in the Cascade Lake Xeon generation (2nd Generation Intel Xeon Scalable).

当与Cascade Lake CPU配合使用的时候,Barlow Pass会被限速到2666MT/s。

2、 Barlow Pass does not support Memory Mode on Cooper Lake, nor obviously, any hybrid/ mixed mode. On the 3rd Generation Intel Xeon Scalable designs, Barlow Pass is limited to App Direct mode. One will notice that the benchmarks and case studies Intel offered with Barlow Pass are for applications such as SAP HANA. SAP HANA is App Direct only.

         与Cooper Lake CPU配合使用时,Barlow Pass不支持Memory Mode,也不支持混合模式,只支持App Direct Mode。

         Intel Optane持久内存具有Memory Mode和App Direct Mode这两种使用模式。在Memory Mode下,Optane持久内存处于数据非持久保存状态,相当于对普通内存进行了扩展。用户可以把需要频繁访问的热数据放置在DRAM里,把访问频率略低的温数据放置在Optane持久内存里,掉电后数据会丢失。而App Direct Mode可以让用户把一些应用程序放置在Optane持久内存里。对于Cooper Lake CPU,如果要使用Barlow Pass,则只能用在App Direct Mode下。

Intel Optane DC Persistent Memory 200的内存模式

         Barlow Pass的这些使用限制相信在Ice Lake CPU上将不会存在,当今年底Intel正式发布Ice Lake CPU后,Barlow Pass将会真正地发挥出其性能。

         PCIe信号是每一代CPU上备受关注的外部接口,网卡、NVMe SSD、存储控制器、AI加速器等部件都会通过PCIe总线互联。但在Cooper Lake CPU上,这个问题就显得有些尴尬。和Cascade Lake CPU一样,Cooper Lake CPU对外提供48个PCIe Lane,但这些PCIe信号仍然是Gen3速率(8Gbps),没有升级到目前AMD CPU和ARM CPU已经支持的PCIe Gen4速率。由于Cooper Lake CPU和Skylake/Cascade Lake一样都是14nm工艺,因此Intel极有可能在Cooper Lake CPU里复用了成熟的PCIe Gen3控制器。

         Intel要到2020年底的Ice Lake CPU上才支持PCIe Gen4速率,这带来了一系列尴尬的问题。由于Intel已经确认2021年的Sapphire Rapids Xeon CPU上将会使用CXL接口,而CXL接口的物理层是基于PCIe Gen5,这使得Intel只会在PCIe Gen4速率上停留一年左右的时间。与此同时,AMD EPYC CPU支持PCIe Gen4速率已经有3年多,各种外设厂家基于PCIe Gen4速率的设备已经越来越多,为了能够使用这些PCIe Gen4设备,用户只能在现有市场上选用基于AMD EPYC CPU或ARM CPU的服务器。比如NVIDIA不久前基于Ampere GPU推出的DGX A100 AI训练机型,其计算节点使用的就是基于AMD EPYC CPU的主板。

NVIDIA DGX A100 AI训练机型

        在Intel自身这边,除CPU之外的其它产品线,很多已经使用了PCIe Gen4接口。比如与Cooper Lake CPU一同发布的新款P5500和P5600 SSD硬盘、Intel在2019年底收购的Habana Labs的AI训练卡、以及Intel已经发布的800系列以太网卡。当用户购买这些设备的时候,Intel无法将其与自家的Xeon CPU一起打包销售。如果仍然与只支持PCIe Gen3的Xeon CPU配合使用,带宽性能将降低一半。用户只能选用AMD EPYC CPU或ARM CPU服务器,这极大地限制了Xeon CPU的市场空间。

Intel新的P5500和P5600 SSD硬盘

         除了Cooper Lake CPU之外,Intel也更新了与之配套的PCH芯片,推出了三款新的PCH SKU。在如今的服务器CPU市场,仍在使用PCH芯片的只有Intel这唯一的一家了。AMD EPYC CPU和各类ARM CPU已经彻底地抛弃了通过PCH桥片进行IO扩展的做法,将这部分功能全部集成在了CPU里面,从而节省PCB的布局空间。

Intel Lewisburg PCH SKU列表

         Lewisburg PCH芯片是在2017年年中推出的,迄今为止已经有7种规格。与Cooper Lake CPU配套使用的三款PCH芯片分别是C621A、C627A和C629A。与已有的PCH SKU相比,这三款新的PCH芯片均取消了10GbE网口功能,使得这三款PCH芯片的功耗大幅降低。PCH提供的10GbE网口是个非常好的功能,但目前的PCH里使用的还是Intel 700系列网卡里的MAC芯片,下一代Ice Lake CPU必然用PCIe Gen4接口与800系列网卡配合使用,因此PCH里再增加10GbE网口将会显得多余了。

         三款新的PCH芯片的主要特性如下:

1、  Intel C621A with no QAT

2、Intel C627A with QAT (100Gbps encryption, 65Gbps compression, and RSA acceleration of 100K operations per second)

3、Intel C629A with QAT (100Gbps encryption, 75-80Gbps compression, and no RSA acceleration)

总 结

Intel Cooper Lake CPU的如期推出终于为用户带来了支持Bfloat 16数据格式的CPU,将助力AI技术的落地发展。CPU间更多的UPI通道、Optane DC Persistent Memory 200内存模块,拓宽了服务器内部的数据通道。在下一代Sapphire Rapids CPU到来之前,使用Cooper Lake CPU构建的4路服务器将是用户不错的选择。当然,从用户和市场角度来看,升级到Cooper Lake CPU构建的8路服务器的需求不会太大,毕竟这种高端服务器的用量较小、升级周期较长。

对于不是那么着急升级的用户,两个季度之后的Ice Lake CPU将会是更佳的选择。2路机架服务器的市场需求本来就大,再加上Ice Lake CPU将会提供用户急需的PCIe Gen4速率、8通道DDR4、更多的CPU核数,这一升级将会给用户带来更大的性能提升。

在Intel发布Cooper Lake CPU的同时,业界主流服务器厂家也推出了自己针对Cooper Lake CPU的新一代4路服务器系统。在接下来的日子里,本公众号将会详细分析这些新的4路服务器,看看服务器系统厂家们又会给我们带来哪些惊喜。

注:资讯原创来源 数据中心前沿技术

如有侵权,请联系邮箱projectaker@126.com,收到邮件后将及时删除。

发表评论

邮箱地址不会被公开。 必填项已用*标注