手机贤集

工业平台

返回贤集网

​IBM在芯片领域的作用与影响一览

  爱情不曾敲门        2021-08-24 15:15:55

每个人都知道机器学习推理在未来几年对于商业应用来说将是一件大事,但没有人确切地确定需要多少推理。但越来越多的人产生了相同的共识,那就是对于企业客户——与超大规模、云构建者和HPC中心不同——进行此类推理的适当位置不仅是在其数据库和应用程序所在的后端服务器内部运行,而是在CPU本身上运行。


这有充分的理由,这也是我们认为Nvidia能够并愿意支付400亿美元收购收购Arm Holdings的原因之一。如果推理主要在企业的CPU上保持原生,并且作为系统中计算的份额相当适中,那么Nvidia需要采取行动,因为它不会被卸载到专为更重的工作负载而设计的GPU上。虽然他们可以在推理方面提供出色的性价比,但不如CPU芯片上的几十亿个晶体管那么便宜,而且永远无法提供片上加速 器所能提供的低延迟和绝对安全性。如果您从不离开服务器CPU内存空间,那么需要担心的东西就会少很多。


这就是为什么所有重要的服务器CPU制造商都在他们的芯片中添加某种矩阵数学加速——不仅仅是拥有一个矢量引擎。他们这样做不是为了消遣,而是因为他们的企业客户,多年来不得不处理外置加密和解密PCI-Express卡,他们告诉他们他们不想要那样。他们希望AI推理是原生的、快速的和简单的,像任何其他类型的片上加速 器一样使用一些指令进行调用。他们也不想从芯学习CUDA或ROCm或oneAPI来使用它。


从长远来看,英特尔仍然是世界上最大和最赚钱的服务器CPU制造商——记住这一点非常重要——因为一直在调整其向量数学单元来进行混合精度整数和浮点数学以支持推理,并且即将推出的“Sapphire Rapids”至强SP处理器及其高级矩阵扩展(AMX)矩阵数学加速 器将其提升了一个档次。AMD“Milan”Epyc处理器中的Zen 3内核有一对256位A VX2兼容向量单元,可以执行混合精度整数和浮点指令进行推理。Neoverse“Zeus”V1和“Perseus”N2内核Arm Holdings分别拥有一对256位和128位可扩展向量引擎(SVE)数学单元,它们可以执行相同的混合精度数学推理。


最后,在IBM几周后即将推出的Power10芯片上,每个内核都有八个支持FP64、FP32、FP16和Bfloat16运算的256位矢量数学引擎和四个支持INT4的512位矩阵数学引擎、INT8和INT16操作;这些单元可以在FP64、FP32和INT32模式下累积操作。


近日,IBM在Hot Chips 33大会上推出了全新的“Telum”z16处理器,并将其用于公司的System z大型机系统。由这个芯片可以看到,蓝色巨人正在采取不同的方法来加速推理。该公司不是简单地采用z15处理器中添加混合精度整数和浮点数学的方法,而是采用了IBM Research开发的第三代AI Core推理加速 器,并将其放入z16处理器中,然后将其与z架构紧密集成指令集将其作为本机函数公开。


看看Telum z16芯片,它以希腊女神阿尔忒弥斯在没有心情开弓时用来打 猎的标qiang命名,它有225亿个晶体管,并且与之前的z14和z15芯片相比,它的设计更加流线型:


​IBM在芯片领域的作用与影响一览


八个z16内核及其L2缓存通过双环连接,双向带宽均为320 GB/秒。如您所见,L2缓存在芯片的中心占主导地位,但也仅为为32 MB,取代了先前CPU上的大量L3缓存和前两代使用的NUMA互连芯片组上的L4缓存大型机处理器。IBM显然也在用z16制造更小的System z处理器,以更好地利用新的代工合作伙伴三星的7纳米工艺,单芯片只有8个内核。相比在单芯片中放置16个内核,这样做更能可以更显著地提高芯片的良率。为此IBM正在通过将两个八核芯片放入一个插槽来弥补性能的差异,


z16和z15在架构上的对比是惊人的。看z15芯片:


​IBM在芯片领域的作用与影响一览


z15芯片在GlobalFoundries的14纳米工艺上制造,并在其十二个内核中每个内核(一半用于数据,一半用于指令)具有8 MB的L2缓存。每个内核都有256 KB的L1缓存(同样,一半用于数据,一半用于指令)。在芯片的正中央是一个L3缓存复合体,带有两个L3控制器和八个L3缓存块,每个32 MB,看起来像一个256 MB的统一L3缓存。高端System z机器有五个drawers四插槽处理器,其中一些用于计算,其中一些用于系统I/O处理器——IBM称之为CP和SP。每个drawers中都有一个L4缓存/互连芯片,如下所示:


​IBM在芯片领域的作用与影响一览


z15上的Xbus端口在单个drawer中的处理器之间提供NUMA链接,L4缓存/互连芯片上的ABus端口则负责将drawers链接在一起。这些互连芯片中的每一个都有960 MB的L4缓存,这些缓存被送入L3缓存,在计算复合体中比主内存快得多,也比闪存快得多。


虽然我们一直钦佩所有这种层次结构,因为它的新颖性和它在创建巨大的I/O怪物处理器方面的有效性,IBM z处理器的首席架构师Christian Jacobi从头开始使用z16设计并放弃了它所有这些都是为了提出更精简的设计,不仅可以为传统的事务处理和批处理工作负载提供线性可扩展性,还可以以极低的延迟提供可扩展的AI推理性能。而且,我们假设系统中需要更少的芯片和更低成本的芯片来启动。


在z16中,IBM正在取消物理L3和L4缓存,Jacobi告诉The Next Platform,他进一步指出,公司正芯片的L2缓存设计,可以根据需要使其看起来像共享的L3或L4缓存。(我们以前从未见过这种方法,但很可能需要保持与z14和z15机器的兼容性,这些机器需要专用的L3和L4缓存。)


NUMA互连芯片也一去不复返了。现在,z16有一个双芯片模块(DCM)接口逻辑块,位于上图z16芯片底部的中央和右侧部分。顶部有一个逻辑块,用于实现on-drawn XBus互连(以及整体结构控制)和两个DDR5内存控制器上方的芯片右侧的相对较小的cross-draw ABus互连芯片。z16系统现在非常紧密耦合,如下所示:


​IBM在芯片领域的作用与影响一览


这对z16芯片在DCM封装中配对,看起来像一个16核芯片,具有512 MB的L2缓存,可根据需要分区为L3和L4缓存。其中四个插槽放置在一个drawer中,并与XBus互连紧密耦合,其中四个drawers使用ABus互连相互连接,形成一个具有32个芯片和8 GB二级缓存的计算复合体。重要的是,互连是一种扁平拓扑,所有芯片都互连。不再有CP和SP。I/O由位于左侧、顶部和底部的一对PCI-Express 5.0控制器处理。这看起来非常像Power7、Power8、Power9,我们假设Power10 NUMA拓扑。


Telum处理器将以超过5 GHz的基本时钟频率运行,并且具有530平方毫米的面积。(z15的运行频率为5.2 GHz。)相比之下,Power10芯片在SMT8模式下的内核数是SMT8模式的两倍,是SMT4模式的四倍,其中一个内核被保留以提高良率;但它略大,为602平方毫米,然而电路却更少,有180亿个晶体管。


顺便说一下,z16内核仅支持SMT2多线程。因此,其内核更多地与寄存器和分支表以及其他使快速而深的管道运行良好的东西有关。


在Telum z16芯片的左下方,大约三分之一区域的逻辑块,就在DCM接口的左侧,是AI加速 器。这是该架构的精妙之处,让我们深入了解有多少推理企业客户和IBM的架构师一起工作,认为他们确实需要将推理嵌入到他们的工作负载中。


我们来看看这个AI加 速器:


​IBM在芯片领域的作用与影响一览


这个加速 器有两位(bits)。有128个处理器块(图表中的PT)的集合连接到一个阵列中,该阵列支持乘法累加浮点单元上的FP16矩阵数学(及其混合精度变体)。这被明确设计为支持机器学习的矩阵数学和卷积——不仅包括推理,还包括低精度训练,IBM预计这可能会发生在企业平台上。AI Accelerator还有32个复杂函数(CF)tile,支持FP16和FP32 SIMD指令,针对RELU、Sigmoid、tanh、log、高效SoftMax、LSTM、GRU函数等激活函数和复杂运算进行了优化。


一个预取和回写单元连接到处理器和L2缓存环互连,还连接到暂存器,后者通过数据移动器和格式化单元连接到AI核心,顾名思义,它可以格式化数据,以便它可以运行矩阵数学单元以进行推理并产生结果。预取器可以以120GB/秒以上的速度从暂存器中读取数据,并且可以以80GB/秒以上的速度将数据存入暂存器中;数据移动器可以600 GB/秒的速度将数据拉入AI单元中的PT和CF内核,或者从这些内核中推送数据,这个数据大约是目前GPU加速卡总带宽的三分之一。但它通过环形总线直接连接到CPU内核,与通过PCI-Express总线连接到外部GPU或FPGA进行推理相比,它的延迟要低得多。


编程模型方面的这种低延迟和不复杂性是将AI推断到CPU复合体上的重点。


​IBM在芯片领域的作用与影响一览


在上图中,IBM模拟了一个信用卡欺诈应用程序的性能,该应用程序在其全球银行客户之一上运行并使用多级循环神经网络。如您所见,将此应用程序从DCM中的一个芯片扩展到两个芯片,再到drawers中的8个芯片,再到系统中的32个芯片,在性能和延迟方面都是非常线性的。介于1.1毫秒和1.2毫秒之间的某个时间,这对于实际应用程序进行推理来说是一个非常非常好的延迟。这些系统每秒将进行数万次交易,并且需要进行大量推理才能将欺诈检测提升一个档次。


“我们将从欺诈检测转向欺诈保护,”IBM系统集团System z部门总经理Ross Mauri解释说。


来源:半导体行业观察

注:文章内的所有配图皆为网络转载图片,侵权即删!

免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~

为您推荐