蓝色巨人新核武:IBM Power8处理器全解析
- 2013-9-22 15:44:28
- 类型:原创
- 来源:电脑报
- 报纸编辑:王宇
- 作者:
【电脑报在线】在IBM的计算大家族中,Power处理器是其中最核心的一员,是 IBM 的很多服务器、工作站和超级计算机的主要处理器。不过,2010年Power 7发布之后IBM便一直没有甚么大动作,反观英特尔的表演可就要热闹许多。面对Intel的大军压境,IBM不拿出点真本事是不行了。
在IBM的计算大家族中,Power处理器是其中最核心的一员,是 IBM 的很多服务器、工作站和超级计算机的主要处理器。不过,2010年Power 7发布之后IBM便一直没有甚么大动作,反观英特尔的表演可就要热闹许多。面对Intel的大军压境,IBM不拿出点真本事是不行了。在日前举行的Hot Chip会议上,IBM终于正式发布了新一代Power 8处理器,规格强大得令人瞠目结舌,堪称蓝色巨人实力的最佳体现!
12核心96线程
Power 8处理器搭载有12个内核,每颗核心拥有64KB的数据缓存、32KB的指令缓存以及512KB的二级缓存,包含有16个执行单元,分别是2个FXU、2个LSU、2个LU、4个FPU、2个VMX、1个Crypto、1个DFU、1个CR以及1个BR。[简写都给点文字解释]相比Power 7系列来说,Power8单线程性能最大提升60%。而且Power 8超线程技术从上代产品的4-Way SMT提高到了8-Way SMT,也就说其最大能够支持96线程,即便是Intel也只能对此望洋兴叹了。但是Power 8所谓的SMT同步多线程,并不是真正的多内核多线程,只是通过不断的状态切换,以提升内核利用率的一种方式。这样的设计在并行度很高的应用中能获得立竿见影的效果。但在数据库等应用中往往会出现性能下降。过去我们大多采用手动打开、关闭SMT同步多线程的方法“因地制宜”,在Power 8上,IBM引入了智能线程技术,可以根据工作负载要求进行设置不同的多线程模式,系统可以自动选择,也可以由管理员进行手动设置,这样就能在并发线程和执行效率中获得良好的平衡。
同时12颗核心还配备96MB的三级缓存,但Power 8中三级缓存是用eDRAM实现的,而非传统CPU中的SRAM。和SRAM相比,eDRAM能极大地节省晶体管数量和降低芯片面积,并且提供更高的传输带宽。在96MB三级缓存中,Power 8处理器的每个内核都在L3 缓存中有自己的高速本地L3缓存区,但每个内核之间,却依然能通过L3 缓存共享数据。根据IBM的资料,Power 8 的96MB L3 缓存中,有一部分缓存的速度快、延迟低,提供的性能介乎于L1和L2之间,由此来确保处理器在众多内核并行工作时仍然有较好的性能。而且Power7芯片取消了四级缓存,Power8芯片又恢复了,支持128MB芯片外部的四级缓存,不过这L4缓存是配合内存控制器充当每个内核的数据缓存使用。
那么“12核心、96线程”将为Power8带来多大的爆发力呢?如果结合Power8单线程性能最大提升60%及SMT增加规模来估算, Power 8提供最大的峰值浮点运算能力将超过600GFLOPS(注:1GFLOPS等于每秒10亿次的浮点运算),比Power 7的两倍还多,将当今市场上的一切CPU都远远的抛在身后。我们都知道,在高性能计算领域,近年来几乎所有厂商都在为万亿次计算努力。而要降低超级电脑跨入Petascale的门槛,提升CPU的峰值浮点运算能力是不二的法门。NVIDIA、AMD等图形卡制造商力挺的异构计算,虽然能够达到更高的峰值浮点运算,但在交付使用后往往需要改写大量的代码,才能完全发挥异构体系的力量。而用传统CPU架构堆砌起来的超级计算机,显然更符合IBM PERCS结构。从浮点运算能力来说,Power 8即便面对NVIDIA/AMD的GPU架构处理器也不遑多让。
22nm SOI制程
2010年发布的Power 7处理器采用的还是45nm制造工艺,而今年的Power 8处理上IBM直接跳过了30nm的阶段,使用了22nm SOI工艺进行制造。相对于之前的45nm SOI工艺, 22nm SOI制程节点开始使用全耗尽型SOI技术——FD-SOI技术。这种工艺仍然基于传统的平面型晶体管结构,是另一种类似于英特尔3D晶体管的有效降低漏电的晶体管技术。与英特尔的技术不同,FD-SOI技术在基底和通道之间加入了一个绝缘的氧化层,即Buried Oxide(BOx)氧化埋层,它可以保证基底上只有特定的区域可以成为电子流动的通道,有效地阻止了漏电现象。该技术可以护送传统的平面型晶体管进入14nm时代。但由于这个绝缘的氧化层的材质与硅晶圆不一样,这意味着在生产时需要一个引入氧化埋层的非传统晶圆,使得晶圆生产成本过高,不过这对于IBM而言,已经不再是问题了。倒是AMD仍在22nm SOI制程中摸索、还有找到其中的道道。
虽是22nm制程,但由于规格实在是太强大的,因此Power 8核心面积依然达到了650平方毫米,相比之下,上代Power 7处理器的核心面积也不过是567平方毫米而已。在主频方面Power8与上代基本持平,将会保持在4GHz左右,但由于Power 8拥有更多的内核、更强的并发多线程能力,所以在性能上Power 7可以实现倍数的跨越。而且即便是4GHz,在英特尔、AMD眼里似乎也是仍难再突破的高度——近年来一般人只看见处理器大厂AMD跟Intel都在拼命推广多核心,频率却游走在3.5GHz附近。实际上商用主机的领域和家用主机是不同的世界,商用主机需要更高精度的计算,更可靠的结果,还要能够承受使用者同时上线提供服务。而能够以4GHz的频率正式出货,中间经过的投资开发,研究除错,最后量产出货,付出的心血和成本也是相当大的。不过,考虑到此前Power 6的主频就已经高达5GHz,“4GHz”相信并不是Power8的最终频率
 
在Power8中,Centaur充当主内存控制器的角色功能——所有内存调度逻辑单元、缓存指令单元和能源管理单元,都被嵌入在Centaur芯片上。连接Power8封装包和Centaur内存缓存区的内存通道延迟为40ns,带宽为9.6GB/s,更为独特的是Centaur芯片还包括有16MB缓存以供处理器当作L4缓存使用。Power8处理器一共有8个Centaur芯片,总共有128MB容量的L4缓存可供使用。由于L4缓存部分独立于内核心,Power8的12个内核需通过三条PCI-E 3.0高速通道与L4缓存进行数据传输:在4GHz频率下允许用户从外部L4缓存中以128GB/s的速率传输至L3缓存中、L3缓存中以64GB/s速率传出,数据也可以128GB/s的速率传输至L2缓存。从设计上,Power8整个内存控制器的8个内存通道内存带宽达到230GB/s,最高可提供410GB/s峰值带宽。而在内存容量上,如果采用32GB DDR3单个内存条的话,每个Power8处理器可支持扩展至1TB DDR3内存容量。
需要说明的是,为了配合OpenPOWER联盟战略,Power8整合的PCI-E 3.0通道还支持CAPI(Coherence Attach Processor Interface)接口连接外部组件标准,可通过第三方授权的方式,将网络、图形处理器、加速器以及其他功能添加到Power处理器当中。如作为OpenPOWER联盟成员之一的英伟达正在为Power8处理器开发一种外部图形处理器。
当然,面对一个运算怪兽,也许不少人更担心Power 8的功耗。功耗管理方面,Power 8处理器和Haswell有些相似,在芯片内部直接集成了VRM模块来实现更精细的功耗控制,同时IBM在Power 8上还引入了智能核心、智能功耗和智能内存技术,解决了困扰当今PC许久的运行效率与功耗等至关重要的问题。不过,IBM目前仍没有公布Power 8的具体功耗,这反倒让我们对Power 8的功耗控制效果有点期待……
写在最后
经过20来年的发展,目前IBM Power 处理器已经成为应用最广泛的处理器架构。尽管RISC架构已经远不如当初的辉煌,但从目前高端服务器市场的销售收入看,基于IBM Power架构的服务器仍然位居首位。这一次,Power8强大的性能再一次体现了IBM的芯片制造水准。它的到来,以强横的处理能力和突破性的功能似乎在向世界证明——传统CPU的生命力依然旺盛,在可以遇见的未来,高性能计算领域仍将是CPU集群主导、异构架构竞争的时代。未来基于Power8处理器的超级系统将在大数据挖掘与分析、云计算部署、HPC、科研、金融、能源等多个领域,满足对更高性能的需求。 
12核心96线程
Power 8处理器搭载有12个内核,每颗核心拥有64KB的数据缓存、32KB的指令缓存以及512KB的二级缓存,包含有16个执行单元,分别是2个FXU、2个LSU、2个LU、4个FPU、2个VMX、1个Crypto、1个DFU、1个CR以及1个BR。[简写都给点文字解释]相比Power 7系列来说,Power8单线程性能最大提升60%。而且Power 8超线程技术从上代产品的4-Way SMT提高到了8-Way SMT,也就说其最大能够支持96线程,即便是Intel也只能对此望洋兴叹了。但是Power 8所谓的SMT同步多线程,并不是真正的多内核多线程,只是通过不断的状态切换,以提升内核利用率的一种方式。这样的设计在并行度很高的应用中能获得立竿见影的效果。但在数据库等应用中往往会出现性能下降。过去我们大多采用手动打开、关闭SMT同步多线程的方法“因地制宜”,在Power 8上,IBM引入了智能线程技术,可以根据工作负载要求进行设置不同的多线程模式,系统可以自动选择,也可以由管理员进行手动设置,这样就能在并发线程和执行效率中获得良好的平衡。
同时12颗核心还配备96MB的三级缓存,但Power 8中三级缓存是用eDRAM实现的,而非传统CPU中的SRAM。和SRAM相比,eDRAM能极大地节省晶体管数量和降低芯片面积,并且提供更高的传输带宽。在96MB三级缓存中,Power 8处理器的每个内核都在L3 缓存中有自己的高速本地L3缓存区,但每个内核之间,却依然能通过L3 缓存共享数据。根据IBM的资料,Power 8 的96MB L3 缓存中,有一部分缓存的速度快、延迟低,提供的性能介乎于L1和L2之间,由此来确保处理器在众多内核并行工作时仍然有较好的性能。而且Power7芯片取消了四级缓存,Power8芯片又恢复了,支持128MB芯片外部的四级缓存,不过这L4缓存是配合内存控制器充当每个内核的数据缓存使用。
那么“12核心、96线程”将为Power8带来多大的爆发力呢?如果结合Power8单线程性能最大提升60%及SMT增加规模来估算, Power 8提供最大的峰值浮点运算能力将超过600GFLOPS(注:1GFLOPS等于每秒10亿次的浮点运算),比Power 7的两倍还多,将当今市场上的一切CPU都远远的抛在身后。我们都知道,在高性能计算领域,近年来几乎所有厂商都在为万亿次计算努力。而要降低超级电脑跨入Petascale的门槛,提升CPU的峰值浮点运算能力是不二的法门。NVIDIA、AMD等图形卡制造商力挺的异构计算,虽然能够达到更高的峰值浮点运算,但在交付使用后往往需要改写大量的代码,才能完全发挥异构体系的力量。而用传统CPU架构堆砌起来的超级计算机,显然更符合IBM PERCS结构。从浮点运算能力来说,Power 8即便面对NVIDIA/AMD的GPU架构处理器也不遑多让。
22nm SOI制程
2010年发布的Power 7处理器采用的还是45nm制造工艺,而今年的Power 8处理上IBM直接跳过了30nm的阶段,使用了22nm SOI工艺进行制造。相对于之前的45nm SOI工艺, 22nm SOI制程节点开始使用全耗尽型SOI技术——FD-SOI技术。这种工艺仍然基于传统的平面型晶体管结构,是另一种类似于英特尔3D晶体管的有效降低漏电的晶体管技术。与英特尔的技术不同,FD-SOI技术在基底和通道之间加入了一个绝缘的氧化层,即Buried Oxide(BOx)氧化埋层,它可以保证基底上只有特定的区域可以成为电子流动的通道,有效地阻止了漏电现象。该技术可以护送传统的平面型晶体管进入14nm时代。但由于这个绝缘的氧化层的材质与硅晶圆不一样,这意味着在生产时需要一个引入氧化埋层的非传统晶圆,使得晶圆生产成本过高,不过这对于IBM而言,已经不再是问题了。倒是AMD仍在22nm SOI制程中摸索、还有找到其中的道道。
虽是22nm制程,但由于规格实在是太强大的,因此Power 8核心面积依然达到了650平方毫米,相比之下,上代Power 7处理器的核心面积也不过是567平方毫米而已。在主频方面Power8与上代基本持平,将会保持在4GHz左右,但由于Power 8拥有更多的内核、更强的并发多线程能力,所以在性能上Power 7可以实现倍数的跨越。而且即便是4GHz,在英特尔、AMD眼里似乎也是仍难再突破的高度——近年来一般人只看见处理器大厂AMD跟Intel都在拼命推广多核心,频率却游走在3.5GHz附近。实际上商用主机的领域和家用主机是不同的世界,商用主机需要更高精度的计算,更可靠的结果,还要能够承受使用者同时上线提供服务。而能够以4GHz的频率正式出货,中间经过的投资开发,研究除错,最后量产出货,付出的心血和成本也是相当大的。不过,考虑到此前Power 6的主频就已经高达5GHz,“4GHz”相信并不是Power8的最终频率
 
独特的内存控制器
如同Power7、至强E系列一样,Power8也将内存控制器收纳入“核”内。只不过Power8的做法有点不太一样:并不是将DDR3控制器放入在晶圆中,而是创建了一个“类”内存控制器,通过高速总线传输到内存缓冲区——该“类内存控制器芯片”被称为“Centaur”,控制着一半的L4缓存和一半的内存控制器。在Power8中,Centaur充当主内存控制器的角色功能——所有内存调度逻辑单元、缓存指令单元和能源管理单元,都被嵌入在Centaur芯片上。连接Power8封装包和Centaur内存缓存区的内存通道延迟为40ns,带宽为9.6GB/s,更为独特的是Centaur芯片还包括有16MB缓存以供处理器当作L4缓存使用。Power8处理器一共有8个Centaur芯片,总共有128MB容量的L4缓存可供使用。由于L4缓存部分独立于内核心,Power8的12个内核需通过三条PCI-E 3.0高速通道与L4缓存进行数据传输:在4GHz频率下允许用户从外部L4缓存中以128GB/s的速率传输至L3缓存中、L3缓存中以64GB/s速率传出,数据也可以128GB/s的速率传输至L2缓存。从设计上,Power8整个内存控制器的8个内存通道内存带宽达到230GB/s,最高可提供410GB/s峰值带宽。而在内存容量上,如果采用32GB DDR3单个内存条的话,每个Power8处理器可支持扩展至1TB DDR3内存容量。
需要说明的是,为了配合OpenPOWER联盟战略,Power8整合的PCI-E 3.0通道还支持CAPI(Coherence Attach Processor Interface)接口连接外部组件标准,可通过第三方授权的方式,将网络、图形处理器、加速器以及其他功能添加到Power处理器当中。如作为OpenPOWER联盟成员之一的英伟达正在为Power8处理器开发一种外部图形处理器。
当然,面对一个运算怪兽,也许不少人更担心Power 8的功耗。功耗管理方面,Power 8处理器和Haswell有些相似,在芯片内部直接集成了VRM模块来实现更精细的功耗控制,同时IBM在Power 8上还引入了智能核心、智能功耗和智能内存技术,解决了困扰当今PC许久的运行效率与功耗等至关重要的问题。不过,IBM目前仍没有公布Power 8的具体功耗,这反倒让我们对Power 8的功耗控制效果有点期待……
写在最后
经过20来年的发展,目前IBM Power 处理器已经成为应用最广泛的处理器架构。尽管RISC架构已经远不如当初的辉煌,但从目前高端服务器市场的销售收入看,基于IBM Power架构的服务器仍然位居首位。这一次,Power8强大的性能再一次体现了IBM的芯片制造水准。它的到来,以强横的处理能力和突破性的功能似乎在向世界证明——传统CPU的生命力依然旺盛,在可以遇见的未来,高性能计算领域仍将是CPU集群主导、异构架构竞争的时代。未来基于Power8处理器的超级系统将在大数据挖掘与分析、云计算部署、HPC、科研、金融、能源等多个领域,满足对更高性能的需求。 
本文出自2013-09-23出版的《电脑报》2013年第37期 E.硬件DIY
(网站编辑:pcw2013)
读者活动
48小时点击排行
编辑推荐
论坛热帖
网站地图 | 版权声明 | 业务合作 | 友情链接 | 关于我们 | 招聘信息
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sin*.c*m 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcwi.com
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sin*.c*m 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcwi.com
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号