首页资讯科技 intel三代至强

intel三代至强

徐昌宇 袁怡男英特尔在企业级处理器产品市场上拥有非常明显的优势地位,即使是在最近几年AMD发布Zen 2、Zen 3架构的相关服务器处理器产品之后,这种优势地位依旧很稳固。这是因为英特尔的企业级解决方案是建立在一整套面向企业用户的解决方案之…

intel三代至强

徐长玉袁一楠

英特尔在企业处理器产品市场上有着非常明显的主导地位。即使在AMD近几年发布了带有Zen 2和Zen 3架构的相关服务器处理器产品后,这种主导地位依然非常稳固。这是因为英特尔的企业级解决方案是基于面向企业用户的一整套解决方案,有着非常深厚的技术护城河。2021年4月,英特尔发布了面向双通道市场的最新第三代至强可扩展处理器。其全新的生产技术、新的功能技术以及平台的整体情况都值得我们进一步了解。

2021年4月7日,英特尔发布了全新的第三代至强可扩展处理器双插槽模型。相比之前发布的面向4路和8路市场的14nm工艺和CooperLake系列处理器,新的Ice Lake-SP只面向1路和2路市场,因此更主流,也更受普通企业和行业用户的关注。虽然定位不同,扩展能力也不同于4路和8路产品,但从产品和规格来看,全新的第三代至强可扩展处理器因为制造工艺、核心架构和规格的改变,可以称得上是近年来最大的一代英特尔至强可扩展系列处理器。(除非另有说明,下面提到的第三代至强可扩展处理器是最新发布的10纳米制程双通道型号。)

概述:第三代至强可扩展处理器的功能和特性

根据英特尔的介绍,第三代至强可扩展处理器采用10nm工艺制造,最大内核数量由上一代的28个增加到40个;新的Sunny Cove架构带来了约20%的IPC改进;综合性能是上一代的1.46倍左右(整数、浮点流三元组和Linpack测试的平均值),AI性能是上一代的1.74倍左右;与五年前的产品相比,综合性能约为2.56倍。

功能方面,第三代至强可扩展处理器是唯一一款面向数据中心市场并具备AI加速计算能力(支持深度学习Boost功能)的处理器产品,同时还带来了包括安全特性、SpeedSelect、AVX-512和英特尔OneAPI在内的诸多功能。内存方面,新处理器最高可支持6TB内存,每个处理器最多支持8个插槽。内存容量是上一代的2.6倍,最多支持64个PCIe4.0通道。支持傲腾内存、傲腾SSD和SSD产品,支持Intel 80系列网络设备和Intel Agilex FPGA加速。

根据不同的目标市场,英特尔声称第三代至强可扩展处理器的相关性能是上一代的1.5倍(下同),是5G领域的1.62倍,是物联网市场的1.56倍,是HPC的1.57倍,是AI计算的1.74倍。英特尔特别提到了人工智能计算性能。在英特尔设定的对比条件下,新处理器在图像识别性能上是AMD EPYC7763 (64核,Zen 3架构)的25倍。即使在20个主流AI和ML工作负载中,第三代至强可扩展处理器的性能也可以达到AMD EPYC 7763的1.5倍,甚至是NVIDIA A100 GPU的1.3倍。在软件方面,英特尔提到用TensorFlow架构优化ResNet50模型后,新处理器性能提升10倍;Scikit-Learn优化SVC/kNN后,新处理器性能提升高达100倍。

在安全特性方面,英特尔在2013年推出了名为SGX (SoftwareGuard eXtensions)的软件保护解决方案,并一直在业界持续推广和应用这一扩展平台的相关技术。目前,已有数百家企业采用SGX相关技术进行数据保护和安全控制。在新的第三代至强可扩展处理器上,英特尔带来了两项全新的技术来加强安全性。一种是全内存加密技术,可以实现内存的批量加密,从而保护整个内存空。另一种是平台固件恢复技术,用于防御和维护底层固件,提高系统安全性。在梳理了英特尔透露的基本概况后,本文将进一步分析第三代至强可扩展处理器架构的相关内容。

面向服务器和数据中心的设计:第三代至强可扩展处理器架构解读

作为一款面向服务器和数据中心的产品,第三代至强可扩展处理器的设计与普通民用处理器有很大不同。例如,对于服务器,英特尔需要优化标量、并行数据、低延迟和高带宽,以及芯片上的节点选择和部署。对于数据中心来说,需要优化性能一致性、数据计算的灵活性和高效性。

鉴于此,英特尔主要从四个方面对第三代至强可扩展处理器进行了优化。首先,在微架构上,采用了新的Sunny Cove架构,增加了新的ISA指令集。第二,在内存方面,英特尔针对企业对内存带宽日益增长的需求,对处理器的内存控制器设置进行了重大改革。第三,在I/O方面,英特尔升级了这一代处理器,支持64通道PCIe 4.0总线,相比上一代大大增加了外部IO带宽。最后是处理器的内外扩展。通过扩展独特的网状架构,英特尔确保了高速缓存、内存和内核之间平均一致的延迟。

Intel给出了一个简单的双路IceLake-SP处理器的双路搭配架构图。如图所示,双向处理器通过三个UPI通道互连,每个处理器有八个内存通道,每个通道有两个DIMMs。一个DIMM可以选择使用奥腾或者DDR4内存,另一个DIMM只能支持DDR4内存。处理器通过DMI总线连接到名为“Lewis Burger R”的芯片组。对于双向系统,任一处理器都可以连接到芯片组,这可能取决于制造商的设计。

计算微体系结构:大幅升级的Sunny Cove

英特尔之前的处理器内核微体系结构与该工艺密切相关。例如,Skylake微体系结构已经用于14纳米工艺。14nm制程和Skylake微架构经过几年的鏖战,英特尔终于在2019年发布了全新的Sunny Cove架构,开始推动微架构和制程的解绑。最终在2021年实现。今年,英特尔首先在桌面上发布了第11代酷睿系列处理器,在采用了Sunny Cove微架构的14nm版本CypressCove之后,终于将Sunny Cove架构引入到了至强平台,这也是本文今天要谈到的第三代至强可扩展处理器。

Sunny Cove微架构在本刊之前的文章中已经介绍过多次,所以在本文中只做简单介绍。总的来说,SunnyCove微体系结构在以下四个方面得到了增强:第一,更高的前端容量和改进的分支预测;二是执行部分的分配单元更大,结构更大,执行资源更多;第三,TLB、单线程执行和预取的增强;第四,更大的L2缓存和更高的矢量吞吐量。以上所有改进加起来,冰湖芯的IPC性能比上一代芯提升了20%左右。

指令集架构:添加了新的指令集

除了新的微架构,它是一种新的计算架构,主要是指英特尔为向量计算和并行计算增加的大量新指令集。包括密码学、大数算术(主要是AVX 512整数的IFMA运算)、向量AES和向量进位少乘法指令、Galois域相关的一些新指令集、SHA压缩解压缩相关的一些指令集、特殊SIMD、位代数相关的一些指令集以及VBMI向量运算的指令集等。

因为这些指令集太低级了,我们不需要太在意具体的内容。Intel给出了一个直观的对比,即采用新指令集后,一些特定计算的加速。在vector CLMUL指令集、vector AES指令集、VPMADD52指令集、SHA扩展指令集、GFNI指令集以及相关软件和算法的支持下,Ice Lake与Cascade Lake相比,每核可带来高达5.63倍(RSA Sign 2048)的性能提升和高达1.5倍(ZUC)。剩下的平均能带来3 ~ 4倍左右的涨幅。总体来看,10次测试最终都能带来3.264倍左右的性能提升,相当惊人。

当然,在实际的最终应用中,仅仅改变硬件平台可能暂时不太可能有这么高的升级。但考虑到目前很多软件已经开始支持这些指令集,英特尔软件部门也会针对大客户做很多优化,大客户最终应该也会获得不错的性能收益。后来英特尔也给出了一些这方面的数据。

提高存储效率:缓存、内存和IO

高速缓存、内存和1O的改进也是这款第三代至强可扩展处理器的重点。根据Intel给出的数据,新处理器的共享LLC缓存提升到了之前产品的1.5倍,带来了全新的缓存半球模式。这种模式可以让CPU交替访问缓存,在一定程度上限制对缓存的访问,从而降低延迟。还有一些其他与延迟、带宽和SoC扩展相关的改进,但英特尔没有详细提及。内存方面,目前第三代至强可扩展处理器支持8通道DDR4 3200内存,内存控制器经过改进,降低了延迟,增加了带宽。在IO的外部方面,第三代至强可扩展处理器现在有64个PCIe 4.0通道,CPU之间有三个UPI链接,单速率为11.2GT/s,延迟有所降低。

英特尔也给出了第三代至强可扩展处理器相对于之前第二代产品的带宽和延迟的测试数据。一般来说,当启用处理器的更多内存通道,获得更高的内存带宽时,内存延迟会显著增加。但是,在新的第三代至强可扩展处理器上,当数据占用的内存带宽值逐渐增加时,相应的延迟增加低于上一代。通常,当至强处理器8280仅占用至强处理器8380一半左右的内存带宽时,相应的延迟值将上升至300ns,而至强处理器8380的延迟将仅为100ns左右,而当至强处理器8380的内存带宽翻倍时,延迟将仅上升至400ns。另一组数据得出了类似的结果。这证明英特尔在新一代处理器的缓存、内存、I0方面的提升是极其有效的。

英特尔还提到了一些SoC层面的改进,包括无缝电源管理架构,片内架构的改变提高了整个系统的性能一致性,最重要的是缓解了AVX512启用时的降频。使用英特尔数据平面开发套件(DPDK)基本FWD应用进行测试,第二代产品的延迟率约为21ns。在第三代至强可扩展处理器上,这个数据降低到7 ~ 8 ns左右,效果极其显著。

更低的延迟:高速缓存和内存性能

英特尔在第三代至强可扩展处理器上进行了巨大的改变,通过网状架构将处理器内核数量大幅增加至40个,比上一代产品的28个提高了约40%。在同一个架构的基础上升级这么多核心是非常夸张的。因此,在本文的下一部分,我们将详细研究英特尔网状架构的内容。

在英特尔的发布会上,新处理器的网状架构的内容比较模糊,但给出了第三代至强可扩展处理器和AMD EPYC处理器的延迟比较。在缓存延迟方面,英特尔表示第三代至强可扩展处理器优于AMD产品,尤其是在L3缓存方面。这个数据很有意思。请参考我们列出的表格。

值得注意的是,第三代至强可扩展处理器在L1、L2和L3访问中的延迟正常增加。例如,其L1和L2缓存的延迟时间略高于AMD EPYC7003系列处理器,但在L3缓存中有两个极端情况。AMD处理器在32MB以内的数据命中延迟比英特尔新处理器的要小很多,但是如果访问32MB以上的数据,那么AMD处理器的命中延迟就比英特尔第三代至强可扩展处理器的要大很多。

另外,如果L3数据访问需要跨套接字,AMD处理器(2S系统中本地处理器访问其他处理器)的延迟也会大大超过Intel产品。这里,英特尔给出的L3延迟数据可能是参考平均值。因为在Mesh架构下,Intel的每个处理器核都有一个本地的小型L3缓存,但是L3缓存与Mesh架构紧密相连。对于每个CPU核心来说,访问自己的L3肯定是最快的。英特尔没有解释访问长距离L3的延迟。考虑到网状架构片上通信的高效率,我们猜测这里的延迟应该考虑到所有的情况。

这里的数据不仅仅意味着延迟和控制问题,实际上它代表了AMD和Intel在设计理念和整体架构上的巨大差异。我们将在下面进一步详细解释。

内存方面,英特尔也给出了一些数据。这些数据表明,AMD的内存延迟高于英特尔的产品。很明显,这是因为AMD采用了小芯片架构,而英特尔的内存控制器在Mesh的节点上。如果跨插座,AMD的延迟会更大。在容量方面,由于支持傲腾,英特尔可以实现更大的总容量。

深入挖掘:探索40核网状架构

英特尔已经在多核处理器上使用了多种架构,包括非常著名的环形总线。其特点是延迟随着核数的增加而增加,所以最终承载核数的能力有限。在英特尔的实际产品中,环形总线最多承载28个内核。如果要进一步扩展更多的内核,Intel发现有必要放弃环形总线,所以后来转而使用网状总线,也就是本文提到的网状总线。

英特尔首次在已退市的至强融核处理器中使用网状总线。这个处理器有72个核心,所以环形总线不可能为它工作。在该处理器中,所有内核通信都依赖于新的网状总线。与环形总线相比,网状总线相当于为每个处理器核增加了各个方向的数据通信接口,形成网格状分布,网格的交点落在单个处理器核上。根据Intel给出的信息,Mesh总线和整个SoC架构是由不同的瓦片组成的,这些瓦片是各种各样的瓦片,包括UPI、PCIe总线控制器、内存控制器、DMA和CBDMA、CPU核、CHA、SF和LLC等。CHA(缓存和归属代理)指缓存功能和本地代理,SF(监听过滤器)指监听过滤器,LLC(末级缓存)指非一级缓存,即L3缓存。

在这里,我们可以看到网状架构以“分布式”的方式将处理器的每个内核分散成多个部分。英特尔只需要通过网状架构组织不同的部分。比如在Mesh架构下,一个CPU核心芯片的CHA/SF/LCC芯片可以组成一个节点,这个节点几乎包含了一个处理器除外部IO以外的所有功能。然后,为该节点设置一个本地CMS (Converged/CommonMesh Stop ),您可以将它连接到网状网络中。CMS主要用于监控、过滤和接收来自不同地方的信息,同时也帮助其他处理器转发信息。CMS站直接连接到处理器的LLC部分,并从上下左右四个方向连接到CMS站(如果有)。由于这种网络连接和位于同一芯片上,可以实现非常低的延迟。对于CPU来说,不需要区分L3在运算中的位置。它只需要把需求交给Mesh网络,通过片上通信高速转发和查找信息。

英特尔首次在Skylake-SP处理器上启用网状网络,该处理器拥有多达28个内核。为了区分不同的市场,获得更好的良率,英特尔将其分为10核以下的LCC产品、18核以下的HCC产品和28核的XCC产品。所有类型的产品通过网状网络连接。其最大的XCC产品采用6×6模块化设计,前六个单元分别是三个PCIe控制器芯片,两个UPI芯片,以及一个具有PCIe、DMI和CBDMA功能的混合芯片。下层CPU设计为6×5,共有30个单元,其中2个单元被内存控制器占用,所以最大核数为28个。从Skylake-SP到上一代Cascade Lake SP,英特尔一直保持这个架构,基本没有大的改动。在这种设计下,根据Intel Mesh通信的工作模式,最远的路径是从左下角的CPU核到右上角的PCIe控制器。如果把自己的节点包含在数据传输过程中,需要经过11个节点。

在最新的第三代至强可扩展处理器,即Ice Lake SP上,英特尔扩展了网状架构的布局,以便拥有更多内核。全新冰湖SP采用8x7结构,横向8片,纵向7片。顶部和底部包含所有IO接口模块,此外还有三个占位符、四个处理器内核和高速缓存。与上一代产品不同的是,这一代产品的IO功能芯片排列在整个网状阵列的顶部和底部。这可能是由于处理器通信的便利性,不需要集中在一个方向进行数据传输,从而减少了数据链路热点的可能性。

冰湖SP的CPU核心网状架构,最大水平深度8,最大垂直深度6。从规格上看,是8×6设计,比上一代6×5 CPU设计(整体6×6)大很多。但是Mesh的特点是成对互联。在冰湖SP上,Mesh path最远的路径应该是左上角的CPU核向右下角的PCIe控制器传输数据。如果整个传输过程包括自己的节点,需要经过13个节点,比上一代节点多两个,每增加一个节点实际延迟会增加10ns左右。而且由于在Ice LakeSP的网状架构中,IO节点分布在整个架构的上下两侧,所以一般来说,CPU内核都是通过靠近自己的IO芯片进行通信的。所以相比上一代产品,延迟提升有限。

Intel在冰湖SP上展示了Mesh架构的强大生命力,尤其是在扩大芯片规模的进度之后,并没有增加太多的延迟。但在Ice Lake SP上,CPU核数仍然远远落后于AMDEPCY 7003系列的单个最高64核。英特尔为什么不进一步扩大网状架构的规模?我们推测可能有几个原因:一方面,网格每扩大一次,整体延迟就会继续增加。目前Mesh架构下,显示的是Intel自己的数据;L3延迟比AMD在32MBL3以内的数值稍差,可能与Mesh总线本身的运行特性有关。如果Mesh规模继续增大,长距离通信带来的延迟会继续增大吗?延迟增加会不会造成性能损失或者影响整个处理器的性能平衡?我相信英特尔自己的实验室已经有结论了。此外,网状架构中还剩下PCIe、UPI等1/0节点,也就是说,即使增加到8×8,也达不到64核。根据目前英特尔透露的话,下一代至强可扩展处理器的核心数量只有50多个。

如果网格再扩大两圈到9×9呢?然后不仅仅是延迟的问题,还有制造工艺的限制。即使采用英特尔目前的10nm工艺技术,Ice LakeSP的40个核心产品的芯片面积也超过了600平方毫米。进一步扩大面积获得更多内核可能导致良率下降。毕竟芯片面积足够大,所以英特尔的下一代产品可能不会简单的通过扩圈来增加核心。在这种情况下,为了保证产品良率和细分市场,英特尔将推出三种不同类型的芯片:LCC、HCC和XCC。不过,英特尔在本次冰湖SP大会上并未提及这一内容。不过英特尔展示的一些信息显示,还是有28核的配置。所以冰湖SP可能会有10核、18核、28核、40核等芯片来对应不同的市场。然而,在下一代英特尔至强处理器中,这种情况可能会发生变化。有消息显示,2021年底,英特尔代号为“Sapphire Rapids”的全新至强处理器将采用MCM多芯片封装。目前的消息是每个小芯片最多有14个核心,4个MCM总共有56个核心。CPU的微架构将采用新一代GoldenCove,工艺将采用10nm SuperFin的改进版。TDP功耗预计为400W。新处理器还可能将HBM2高带宽内存封装在一起,并且还支持DDR5内存。如果这一消息最终被证实为真,则证明英特尔将在下一代处理器上放弃网状架构,转而采用类似于Chiplet的小芯片架构。但整个芯片系统如何布局,是否采用独立IO芯片,HBM2缓存和DDR5内存如何匹配,还有待英特尔透露。

可信计算和安全性

在第三代至强可扩展处理器的发布会上,英特尔还引入了可信计算的内容。这部分主要是指SGX带来的一些新功能,包括:即使在操作系统、驱动程序、BIOS、VMM或SMM被破坏的情况下也能防止进一步的软件攻击,即使在攻击者控制系统或平台的情况下也能持续提供数据保护,防止内存总线窥探、内存篡改和RAM“冷启动”等攻击,提供基于硬件认证的有效代码和数字签名。这部分内容不是本文的重点,就不说了。

性能:再次超越

和所有发布会的最后一部分一样,英特尔也带来了大量的性能对比数据来证明新产品比旧产品更好。让我们简单看一下。选择英特尔第三代至强可扩展处理器,比较第二代、第一代至强可扩展处理器和早期至强E5等产品。从数据上看,第三代至强可扩展处理器在整数测试,即IntegerSPECrate2017_int_base的测试中,可以达到第二代的1.5倍,第一代的1.6倍,至强E5v4和至强E5v3的2.34和2.85倍。在浮点测试Floating Point spec rate 2017 _ FP _ Base中的性能是之前产品的1.52、1.62、2.6、3.8倍。其他还有内存带宽测试,LINPACK测试,Geomen测试。新的第三代产品远远领先于上一代竞争对手。其余数据还包括DDIO、AVX-512测试、IntelCrypto加速、DL Boost开关前后的数据对比,证明新处理器在功能和特性上有了很大的进步。

此外,值得注意的是,英特尔特别使用了第三代至强可扩展处理器的顶级型号,即至强白金8380(40核)双插槽系统和AMD Epyc763 (64核)双插槽系统。在运行了关于AVX-512的高性能计算、AVX-512的云计算和支持DL Boost的AI计算之后,给出了相关性能的比较。这些测试表明,与AMD产品相比,英特尔产品可以实现至少1.18倍的性能提升,最多25倍的性能提升。由此可见英特尔在指令集、软件支持和行业方面的巨大优势。当然这种比较对AMD来说略显不公平,因为AMD目前并不支持这些指令集,但是两家公司是互相授权专利的,所以并不确定AMD以后会支持AVX256,就像AMD现在也支持AVX256一样。不过,至少目前来看,如果用户和市场有这样的特殊需求,英特尔还是有明显优势的。

迈向新的计算时代。

在本文的最后,我们来总结一下相关内容。与上一代相比,第三代至强可扩展处理器具有以下优势:

1.CPU核心数量从上一代的最多28个增加到最多40个,CPU架构采用最新的Sunny Cove

2.L1、L2和L3缓存容量受益于新的Sunny Cove架构,该架构已得到显著改进;

3.PCIe频道数量从之前的最多48个增加到最多64个,升级到PCIe 4.0标准;

4.支持的最大内存容量提升至4TB,上一代为3TB

5.支持新的SGX飞地安全特性;

6.处理器插槽的数据传输带宽提高了7%;

7.支持DDR4-3200和奥腾DCPMM 200系列;

8.性价比的提高;

9.当然还是有一些弱化的数据:比如单核最高频率降低,从之前最高的4GHz降到3.4GHz

10.多核的最高频率也有所降低,从之前的最高3.3GHz降到了3GHz。

11.TDP提升了32%左右,从最高的205W提升到270W。事实上,就增加芯片数量和降低频率的规模而言,这是符合预期的。

总的来说,随着新的10nm技术、新的Sunny Cove架构、新的指令集支持、新的安全控制技术和扩展的Mesh架构等技术升级,英特尔第三代至强10nm技术可扩展处理器的实力大大增加,这将给竞争对手带来更大的压力。

tipamd eypc7003系列处理器简介

这里也简单说明一下Intel提到的AMDEYPC7003系列处理器在要缓存的数据超过32MBL3的缓存大小时会造成延迟爆炸的问题。根据AMD之前发布会的信息,AMDEPYC 7003系列处理器采用小芯片设计,分为IO芯片和CCD芯片。每个CPU芯片有8个CPU内核以及绑定到每个CPU内核的L1和L2高速缓存,所有8个CPU内核共享32MB L3高速缓存。整个处理器有8个CCD芯片和1个IO芯片。

因此当同一个CCD芯片上的CPU核心访问本地缓存的时候,延迟是非常小的,甚至小于英特尔的Mesh架构,这是因为同一个CCD芯片上的CPU核心可以访问全部32MB缓存。但是,如果不同CCD芯片之间存在缓存访问的话,整个访问路径就需要跨过IO核心,延迟更接近于不同CPU插槽之间的访问延迟,比如AMD在这种情况下延迟高达112ns,接近英特尔跨插槽的延迟118ns。在不同插槽之间存在数据访问时,AMD方案需要跨越两个IO芯片才能得到数据,因此延迟更高,高达209ns。这就是Chiplet这类架构设计的弱点之一。当然,AMD也会考虑对此架构进行优化,将缓存数据优先放在最靠近的L3缓存中。毕竟32MB的缓存也足够大。按AMD的统计数据,很少有应用程序的缓存数据能够占满这么大的空间。

本文来自网络,不代表管理窝立场。转载请注明出处: https://www.guanliwo.com/a/zx/61538.html
上一篇芯片堆叠技术
下一篇 直播轻松吗
管理窝

作者: 管理窝

这里可以再内容模板定义一些文字和说明,也可以调用对应作者的简介!或者做一些网站的描述之类的文字或者HTML!

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部