在6月初的台北电脑展上,AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器和锐龙9000系列台式机处理器,均将于7月上市。
当时AMD发布了具体的型号名称和规格(隔壁的月亮湖只有架构和技术),但对新的CPU/GPU/NPU架构没说太多,桌面上的新一代主板芯片组也只说了个大概,留下了一些悬念。
上周,AMD专门在美国举办了Zen 5 Tech Day技术活动,最终揭开了新架构的神秘面纱,公布了更多的性能数据和技术特性,尤其是新的处理器和内存超频。
至于确切的上市时间,锐龙AI 300笔记本是7月28日,锐龙9000系列是7月31日。
[Zen 5架构:全面扩展和独家英特尔机密]
禅建筑诞生于2017年。相比之前的推土机架构IPC大幅提升了52%,远超当初40%的目标,这在整个微处理器历史上是极为罕见的进步。
七年来,Zen架构不断打磨,现在已经进化到第五代,这是一个相当大的变化,包括增加每个时钟周期的指令数,扩展指令调度和执行的带宽,缓存数据带宽翻倍,AI加速等等。
CPU架构设计是一个极其复杂的工程,哪怕是升级版。
迈克·克拉克已经在AMD工作了31年。现在是AMD院士,芯片设计工程师,多年来Zen架构研发的灵魂人物。他被称为“禅宗之父”和“禅爹”。
他动情地说,人们往往没有意识到设计CPU架构有多难,需要多长时间。例如,Zen 5的研发是全球大量设计、验证、软件和其他团队多年专注努力的结果。它甚至已经融入了每个人的血液。很多人吃饭甚至做梦的时候都在想这件事,最终看到自己的努力开花结果,也是相当了不起的。
Zen 5的三位设计师,左边是迈克·克拉克。
接下来我们来看看Zen 5架构在不同模块的变化。当然只能说高层层面,不涉及太深的细节。
其实现代CPU架构已经有了一个成熟的体系,可以分为前端和后端两部分。细分包括指令预取和解码、整数执行、浮点执行、加载存储、缓存等不同的单元模块。
除非有完全颠覆性的计算系统,否则CPU架构师需要做的就是根据预设的目标,确定不同单元模块的规格和规模,然后有机地组合成一个整体,实现效率最大化,既不会造成浪费,也不会产生瓶颈。
就像一条运河或水管,一般情况下,水流越大越好,但不能盲目加宽加粗。从源头到末端都要协调,既不能水不够,也不能堵。重要的是平衡。
Zen 5的整体思路是适当放大规模,很多地方甚至翻倍。比如前端部分改成了双预取双解码流水线,可以更高效的处理各种负载。比如源闸更开,能放出更多的水。
同时分支预测有了很大的提升,吞吐量更高,准确率更高,延迟更低,指令缓存的延迟和带宽也有了提升,就像运河更宽敞了,面对再多的水也不会溢出来。
整数执行单元拓宽了指令调度和执行通道,包括调度和退役到8个宽度,增加了执行窗口,增加了集成ALU调度器的数量,包括6个ALU和4个agu。
在浮点和向量执行单元部分,核心变化是在Zen 4架构引入AVX-512指令集的基础上,仅支持256位数据宽度,并加强到支持完整的512位。
256位以下的灵活性更高,因为不是所有的指令都需要512位那么宽。现在加了512位满血版后,可长可短,在保持灵活性的同时,大大提高了执行效率和性能。
更耐人寻味的是,由于异构混合架构设计,新一代月亮湖和箭湖并不支持AVX-512,何时回归尚不确定。
谁能想到,当年英特尔的独门利器,如今却成了AMD的私人厨房。
此外,浮点单元中有六条流水线,FADD指令的延迟只有2个时钟周期。
通过加载到存储单元,数据带宽大幅提升,其中一级数据缓存容量从32KB提升到48KB,同时从8通道增强到12通道。
到一级缓存和浮点单元的最大带宽也比上一代增加了一倍,相应的数据预取也有所提高。
此外,数学加速单元的性能也取得了快速进步,单核执行数学学习和AES-XTS指令的速度最高可分别提高32%和35%。
这有什么好处?当然,它可以大大加快AI运行的效率,适应当前的环境,尤其是在带有本能加速器的EPYC处理器中,效果相得益彰。
通过这一系列改进,Zen 5架构的IPC平均提升16%(可以理解为同频的性能提升),部分场景甚至提升高达35%。
其中贡献最大的是指令执行和退休的改进,然后是数据带宽、指令解码和OP缓存的改进,最后是指令预取和分支预测的改变。
根据历年官方数据,Zen+、Zen 2、Zen 3、Zen 4相对于上一代IPC的平均增幅分别为3%、15%、19%、13%。
五代六个版本的进化积累,Zen 5比原版Zen IPC平均提升率达到了85%左右!
别忘了频率也在不断增加。第一代最高只有4.0GHz,现在已经达到了5.7GHz,提升了43%左右。
产品方面,锐龙9000系列台式机将采用纯Zen 5或者CCD和IOD的组合。
CCD部分工艺从5nm升级到4nm,每个最多8核,总共16核。
IOD部分沿用了锐龙7000系列,所以还是6nm,集成了两个RDNA 2架构GPU图形核心。
移动端的锐龙AI 300系列都是Zen 5和Zen 5c的组合。如上图右下角所示,下面四个橙色调是Zen 5,上面八个紫色调是Zen 5c。
与英特尔的异构架构不同,Zen 5和Zen 5c仍然拥有相同的架构设计、IPC性能和ISA指令集,但不同的是后者的缓存更小,频率更低(但能效更高)。
锐龙AI 300系列的制造工艺为4nm,与上一代锐龙7000/8000系列相同。
数据中心方面,第五代都灵EPYC将于今年下半年发布,采用先进的4nm和3nm工艺组合,这是AMD首次推出3nm。
都灵EPYC将升级到多达192个内核和384条线程。在新特性方面,官方特别提到了基于Trust IO功能的AI加密,无疑可以更好地满足当今云AI部署的需求。
接下来我们会看到Zen 6,Zen 6c,后续的Zen 7也在研发中。猜猜会用什么工艺?
标签: AMD CPU处理器 Zen 5 锐龙9000 锐龙AI 9 HX 370 锐龙AI 9 365 锐龙9 9950X RDNA 3.5 NPU