深度评测

来源 :微型计算机 | 被引量 : 0次 | 上传用户:dasaqa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  历史总是惊人地相似,AMD在推出首款DirectX 11显卡以后,再次领先NVIDIA推出首款DirectX 11.1显卡—Radeon HD 7970。这款产品对AMD来说具有划时代的意义,因为它和之前HD 2000~HD 6000系列的任何一款显卡都不同,采用了革命性的GCN图形架构,给出了未来AMD显卡的发展方向。再加上它是第一款采用28nm工艺和支持PCI-E 3.0的显卡,这使得它想不火都难。
  表1:HD 7970与相关显卡的规格参数对比
  
  CU单元:基于SIMD阵列的MIMD架构
  AMD称GCN在架构设计上为“基于SIMD阵列的MIMD架构(GCN is a MIMD architecture with a SIMD array)”。从AMD的官方表态上我们可以看出,GCN本身并没有彻底地转向MIMD,而是保留了SIMD的特征。那么AMD是如何在保留SIMD特征的基础上采用MIMD架构的呢?
  为了解释这个问题,我们先抛开GCN架构的外围部分,从AMD宣称的CU单元,也就是“Compute Unit”计算单元开始了解。在AMD公布的架构图中,CU单元被表示成32组黑色的、命名为GCN的块。这32组CU单元占据了架构图的绝大部分面积。从单个CU单元来看,每个CU单元中有64个ALU(算术逻辑)单元,Radeon HD 7970标称的2048个流处理算术逻辑单元就是这样来的(32×64=2048个)。也就是说,这2048个ALU单元就是GCN架构的基础运算单元。
  再进一步分析下去,每一个CU单元中,最主要的是矢量计算单元,也就是Vector Unit。这个单元中有4个16路的SIMD计算子模块(每个SIMD模块拥有16个ALU,一共组成16路,可以处理同时并行的16个乘加指令计算),还配备了4个64KB的矢量寄存器(每个SIMD计算子模块各1个)。这4个16路的SIMD计算子模块是CU的数据执行基础。从单个CU的角度来看,1个CU在每个时钟周期内可以执行4个不同的16路矢量线程,可以称为MIMD(多指令多数据流)。而这4个矢量线程在执行时每个线程内都使用的是16路的SIMD计算子模块,因此GCN在最底层上采用了单指令多数据流的设计方式。
  这样一来,我们就不难理解AMD为什么称自己的产品设计为“基于SIMD阵列的MIMD架构”了。AMD依旧使用了SIMD阵列作为数据执行基础,但在更高一级的层面上采用了四路SIMD单元并行的设计方案。在实际数据操作中,AMD设计的线程调度器会每次派发64粒度的线程给CU单元,CU单元将其直接分配给由4个16路SIMD组成的计算单元计算,在最理想的情况下一个CU单元一个周期就可以执行64粒度的线程操作。
  相比上一代Cayman采用的VLIW 4架构,虽然它看起来都是每个周期可以执行四次操作,但实际上Cayman这四次操作是有一定的“关联度”的。因为这 四次操作必须来自一条指令。如果来的指令只需要3个或者2个ALU计算,那么剩余的ALU只有闲置。但是在GCN这里,如果来的指令需要3个ALU计算,由于底层的四个16路的SIMD单元没有强制的捆绑关系,因此可以自由处理,理论效率接近100%。举个简单例子来说,如果有2个指令,分别同时需要2个ALU计算,在Cayman的单个VLIW 4单元执行时,这2个指令必须分两次执行。但是在GCN的CU上,可以一次执行来自两个指令的4个ALU操作,因此效率大大提升。我们举出这个孤立的例子,仅仅为了说明GCN的数据执行效率的变化,在实际处理中,AMD会采用各种手段来尽量优化分配指令,保证高效率—这并不是本文讨论的重点,我们只需要看到GCN在效率上相对前代产品的超高表现即可。总体而言,GCN与VLIW4(VLIW5)有一定关联,都采用并行运行方式,但两者在执行方式上却截然不同。采用VLIW设计的产品,使用的是提取指令级(ILP)的并行方式,GCN则采用线程级并行(TLP)方式,省略了指令打包、派送、解包的过程。
  说完了最重要的计算单元,CU中还有一些其它部分值得我们注意。比如除了矢量计算单元外,每个CU中还有一个用于执行整数、媒体指令和浮点原子操作的标量单元。这个标量单元拥有4KB的标量寄存器。此外,还有与数据分支指令有关的分支和信息单元、程序调度管理单元、纹理拾取模块、纹理滤波单元、共享的64KB只读本地数据缓存和16KB可读写L1数据缓存。这些部分在GCN架构的合理调配下,组成了精巧而灵活的CU单元。
  缓存:更灵活有效的缓存设计
  在之前的Fermi上,我们看到了NVIDIA设计的极为优秀、层级鲜明、灵活可读取的缓存设计,这对通用计算来说帮助相当明显。不过当时AMD的Cayman采用比较保守的VLIW 4架构,缓存设计也基本没有太多亮点。这也是Cayman通用计算能力较差的原因之一。
  在新的Tahiti上,AMD彻底改进了GPU的缓存方案,采用了类似Fermi的多级高速缓存搭配。在上一部分对CU的介绍中,我们看到了CU设计了缓存单元。实际上CU中的缓存仅仅是整个GCN架构缓存设计的一部分。除了每个CU中的标量单元和矢量单元都有自己的独立缓存外,每4个CU单元还可以共享16KB的矢量缓存以及32KB的指令缓存。另外每个CU还拥有16KB的L1可读写缓存,所有L1缓存都可以通过全局数据存储进行共享,这样32个CU一共拥有512KB的L1缓存。
  除了L1缓存外,GCN还设计了可读写的L2缓存。L2缓存直接连接了显存控制器和L1缓存。每个显存控制器通道上连接的L2缓存都通过64bit位宽的总线和L1相连接,每个通道的L2缓存的容量为128KB。目前GCN架构的Radeon HD 7970拥有6个64bit的显存控制器,组成了384bit的显存带宽,因此L2缓存总量为768KB。
  Tahiti如此设计L2缓存还带来了一个优势,那就是它的缓存可以与CPU内存数据同步,这样在通用计算 中能大幅度提高GPU和CPU的数据交换能力。除此之外,Tahiti也能够支持X86虚拟内存功能。这个功能的主要作用是将GPU的显存映射为CPU的内存,CPU可以直接读取GPU显存中的数据,速度要比读取调用内存、硬盘中的数据速度快很多,能大幅度降低延迟。
  纵观GCN的缓存设计,Tahiti形成了自己多层级的、可读写的缓存存取方案,不但大大改善了GCN架构的通用计算效能,也顺带提升了GCN架构在多种应用环境下的实际表现,让存储成为计算瓶颈的可能性大大降低。
  曲面细分、ROP等功能:继续增强
  在基本了解了AMD是如何设计GCN的核心部分、CU单元以及缓存设计后,我们从宏观角度来观察这颗芯片的其他方面的设计情况。
  首先从架构顶端来看,GCN虽然和之前的Cayman比较类似,但加入了两个被称作ACE的引擎。ACE全称是Asynchronous Compute Engine,异步计算引擎。它的作用是调配管理所有的线程和任务队列,根据任务优先级优化和排序,并最终将这些任务发配给CU单元进行计算。这大大增强了Tahiti对任务的优化排序能力,更有效地降低了计算中的无谓浪费和等待时间,同时也提升了缓存的使用效率。从数据处理的本质来看,图形计算依旧是顺序执行,GPU需要按照处理顺序一步一步地执行操作。ACE单元虽然不能像X86的CPU那样做到乱序执行,但至少能在目前有限的操作空间内大幅度提升GPU的效率。从互联角度来看,ACE联系了几乎所有的全局缓存、几何引擎以及指令处理单元。这也说明了其重要性。
  AMD显卡的曲面细分能力一直为人所诟病,为此在AMD在Cayman上设计了双几何处理引擎,以加强曲面细分的性能。在Tahiti上,AMD继续沿用了这种设计,并宣称该双几何处理引擎从Cayman的第八代进化到第九代。根据AMD提供的官方数据来看,新的几何处理器引擎在加入了ACE的控制、提高了缓存设计以及强化了相关单元的情况下,相比Cayman至少可以达到1.8倍左右的性能提升(在5级的曲面细 分下),最多可以达到4倍的提升(在14级曲面细分系数下)。在更高的曲面细分系数如20级以后,至少也有3.5倍的性能提升。
  接下来是Tahiti的ROP和显存控制器设计。以Radeon HD 7970为例,这款显卡拥有32个ROP单元,每周期可以执行32个色彩处理以及128个Z/Stencil处理。从参数来看,虽然ROP数量相比上代Cayman的产品没有提升,但和ROP性能有关联的显存带宽得到了提升—这是AMD近年来首次采用384bit显存位宽,相比上代256bit提升了约50%。再加上AMD一贯的高频率显存,采用GCN架构的Radeon HD 7970的显存带宽高达264GB/s。更高的显存带宽,在对显存带宽渴求度比较高的应用如抗锯齿、高分辨率等计算中,会有比较明显的性能提升。
  
  曲面细分性能是HD 7970重点改善的地方
  测试平台
  处理器:英特尔Core i7 3960X
  主板:ROG玩家国度Rampage Ⅳ Extreme
  显卡:HD 7970、HD 6990、HD 6970、HD 6950、HD 7970 CrossFireX(3Way CrossFireX、4Way CrossFireX)、GTX 580、GTX 590(都采用公版显卡,运行在公版频率下)
  内存:金邦DDR3 2133 4GB×4
  电源:长城金牌巨龙1250
  系统:Windows 7 64bit旗舰版
  “显卡杀手”称号的《地铁2033》、《孤岛危机2》。为了考察HD 7970在通用计算方面的改进,我们选取了GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。
  HD 7970 VS. HD 6970:压倒性优势
  从VLIW 5到VLIW 4,再到GCN,HD 7970完成了华丽的转身。新架构使得它完胜上一代旗舰产品HD 6970,整体领先幅度达到了30%以上。例如在《尘埃3》、《地铁2033》(均运行在1920×1080、最高画质)的测试中,HD 7970的领先幅度分别达到了33%和48%。甚至它在一些项目的测试中,领先幅度高达50%以上。例如在3DMark Vantage Extreme和《失落的星球2》的测试中,HD 7970的领先幅度分别为53%和67%。HD 7970领先HD 6970并不意外,HD 7970无论是流处理器算术逻辑单元、核心频率、显存带宽、显存容量等主要影响显卡游戏性能的规格参数都远远领先HD 6970。
  HD 7970 VS. GTX 580:优势明显
  HD 7970借助新架构所得的优势不仅仅体现在与HD 6970的对比中,它还全面领先了曾经的单核心旗舰王者GTX 580,领先幅度在15%左右,优势比较明显。例如在《尘埃3》、《战地3》、《失落的星球2》、《地铁2033》中,HD 7970的领先幅度分别达到了12%、15%、17%、29%。特别是在《失落的星球2》、《地铁2033》这两款“The Way It’s Meant To Be Played”游戏中,HD 7970一改以往AMD显卡不给力的印象,性能大幅领先GTX 580。
  出现这样的结果,除了HD 7970采用全新的架构、采用线程级并行(TLP)方式,效率更高,以及加入了丰富的缓存设计之外,还和其采用384bit显存位宽有关。近年来,AMD显卡的顶级显卡无一例外都采用的是256bit显存位宽,导致其显存带宽不敌同档次的NVIDIA显卡(采用384bit显存带宽)。以同为单核心旗舰的HD 6970和GTX 580为例,前者虽然显存频率高达5500MHz,但受限于256bit显存位宽,显存带宽只有176GB/s。而GTX 580的显存频率虽然只有4008MHz,但得益于384bit显存位宽,使得其具备了192.4GB/s的显存带宽。而现在HD 7970采用了384bit位宽,显存带宽达到了264GB/s,远远领先GTX 580,整体性能更强也就在情理之中了。
  另外,我们注意到HD 7970在《地铁2033》的领先幅度达到了29%,超出了HD 7970领先GTX 580的平均领先幅度。这是因为《地铁2033》是一款以“高纹理”设计见长的游戏,而HD 7970在HD 6970的基础上增加了32个纹理单元,达到了128个纹理单元,纹理单元数量刚好是GTX 580的一倍。因此,HD 7970能够在这款号称“显卡杀手”的游戏中获得更明显的优势。
  HD 7970 VS. HD 6990:性能差距不算大
  GCN新架构的采用,使得HD 7970具备了和上一代AMD双核心旗舰HD 6990比拼的能力。整体来看,在总共11个3D性能测试项目中,HD 7970在《失落的星球2》、《上古卷轴5:天际》这两个项目中领先HD 6990,领先幅度在10%左右;在《使命召唤:现代战争3》、《孤岛危机2》这两个项目中互有伯仲;在3DMark Vantage Extreme、《地铁2033》等余下的7个测试项目中落后HD 6990,落后幅度在18%左右。
  虽然我们对采用新架构的HD 7970充满了期待,不过由于规格上的差异较大,其性能仍然不敌双核心的HD 6990。但作为一款单核心的产品,HD 7970已经初步具备了挑战HD 6990的实力,让人不容小觑。
  H D 7 9 5 0性能预测:落后H D 7 9 7 0 10%~15%?
  虽然HD 7950尚未发布,但这并不影响我们对其进行性能预测。HD 7950和HD 7970相比,主要是流处理算术逻辑单元数量缩减到1792个,被屏蔽了4个CU单元,显存位宽和显存容量保持不变,分别为384bit和3GB。
  考虑到HD 7950和HD 7970的规格差异不算大,主要是流处理算术逻辑单元数量被缩减了。结合HD 6970和HD 6950之间的性能差距,以及综合我们过去
  对AMD顶级单核心显卡和次一级单核心显卡的评测经验,我们大胆预测HD 7950的综合游戏性能将落后HD 7970 10%~15%。
  另一方面,结合本次11个3D游戏测试项目来看,HD 7970的性能领先HD 6950 50%左右。再加上上文我们对“HD 7950的综合游戏性能将落后HD 7970 10%~15%”的预判,我们推测HD 7950的综合游戏性能将领先HD 6950 35%~40%。
  HD 7970 CrossFireX:效率大爆发
  两块HD 7970组成的CrossFireX系统的效率和性能,将是HD 7970的又一个看点。从测试结果来看,我们可以用“惊艳”来形容HD 7970 CrossFireX系统的效率。众所周知,借助DirectX 11的统一渲染架构和AMD自身的优化,AMD HD 5000、HD 6000系列显卡的CrossFireX效率节节攀高,HD 6850(6870)CrossFireX就是典型代表。不过这主要是针对中高端产品而言,而由于种种原因顶级的单核心显卡组建的CrossFireX效率反而没有那么明显。
  而HD 7970在采用新的GCN架构、使用线程级并行(TLP)方式以后,可以一次执行来自两个指令的4个ALU操作。而之前采用VLIW 4、VLIW 5架构的AMD显卡则需要分两次来执行上述操作。显然,HD 7970的执行效率得到了大幅提升,这种提升显著反映在CrossFireX的执行效率上。可以看到,HD 7970 CrossFireX在绝大部分测试项目中,相对于HD 7970都保持了90%,甚至100%的性能提升—这样超高的执行效率对单核心的旗舰显卡来说是非常难得的。例如在3DMark 11 Extreme、Unigine Heaven
   Benchmark 2.5、《尘埃3》、《战地3》、《异形大战铁血战士》、《地铁2033》上,HD 7970 CrossFireX的提升效率都非常接近100%或者已经达到了100%。
  
  HD 7970(CrossFireX)三屏表现:基本令人满意
  Eyefinity作为AMD独有的多屏显示技术,在游戏、金融等许多领域有广泛的应用前景,一些游戏发烧玩家以Eyefinity技术为基础,组建三屏系统,以获得更高的分辨率和更好的游戏体验。因此我们特意组建了三屏系统,来看看HD 7970能否具备在5760×1080超高分辨率下流畅运行游戏的实力。从4个游戏和一个基准测试软件的测试结果来看,HD 7970的性能损失比较严重,普遍在50%以上。例如在《尘埃3》、《孤岛危机2》中,三屏下的HD 7970的性能较单卡性 能分别下降了53% 和60%。好在HD 7970的性能足够出色,除了《孤岛危机2》以外,它在余下4个游戏中都保持了40fps的帧率(包括在抗锯齿模式下),基本满足了流畅运行游戏的需求。
  此外我们还组建了HD 7970 CrossFireX系统,在三屏下进行了游戏测试。HD 7970 CrossFireX在三屏下依旧延续了超高的效率,相比HD 7970单卡在三屏下的性能有近100%的性能提升,流畅运行游戏没有任何问题。不过由于驱动优化的问题,在使用CrossFireX系统运行在三屏下时,不时会出现游戏无故退出,或者需要多次启动游戏才能运行的问题。
  
  HD 7970的超频表现:上1GHz无压力
  28nm工艺究竟会给HD 7970带来怎样的超频表现呢?我们利用催化剂控制中心,轻松将HD 7970超频至1125MHz、6300MHz,3DMark 11 Exreme模式的性能提升了18%。而且此时其GPU满载温度也只有80℃,PC满载功耗为393W。
  HD 7970的功耗、温度表现:控制得不错
  采用28nm工艺生产的HD 7970的PC待机功耗为为117W,是参测显卡中表现最好的。在PC满载功耗方面(使用FurMark进行拷机),HD 7970所在的平台达到了422W,比HD 6970、GTX 580所在的平台分别高了36W和8W。虽然HD 7970采用的是28nm工艺,但考虑到其硬件规格参数有大幅的提升,而且还将PC满载功耗基本控制在和上一代同档次显卡的水平,我们认为它的功耗控制还是基本令人满意的。
  温度表现方面,HD 7970借助28nm工艺将待机温度和满载温度分别控制在32℃和79℃上,这个测试结果在同档次显卡中属于很优秀的表现。相对而言,由HD 7970组成的CrossFireX系统的PC功耗就比较高了。以HD 7970 CrossFireX为例,它的PC满载系统功耗达到了690W。好在两颗Tahiti核心的温度并不高,分别为32℃和86℃,在可以接受的范围内。
  不过HD 7970 3Way CrossFireX、4Way CrossFireX的表现就没有那么好了,它们的PC满载功耗分别达到了988W和1243W。HD 7970 4Way CrossFireX在满载状态下,四颗核心的满载温度更是分别达到了79℃、88℃、87℃、92℃。
   HD 7970:自我超越,全面胜利
  如果非要用一个字来形容HD 7970的话,“新”是非常合适的:全新的图形架构、全新的游戏性能、全新的曲面细分性能、全新的功耗表现、全新的交火效率、全新的生产工艺。
  没错,HD 7970是一款从里到外都是全新的产品,实现了自我超越,是一场全面的胜利。AMD在认识到未来图形发展的趋势和自身的不足后,终于抛弃了沿用多年的VLIW架构。而事实证明,这是卓有成效的。无论是图形计算还是通用计算,它都达到了一个新的高度,单卡卡皇的地位毋庸置疑。特别是通用计算,它设计了丰富的缓存结构,无疑更适合进行这方面的工作,具备了进军高性能计算领域的潜力。虽然该显卡在硬件层面上已经做好了拥抱通用计算的准备,并在一些理论测试软件上获得了不俗的成绩,但要获得市场和行业用户的认可还有一个较长的过程。友商NVIDIA之所以在高性能计算市场上节节开花,除了借助专为通用计算进行优化的Fermi以外(硬件层面),还拥有丰富的、基于CUDA开发的一整套软件。而AMD目前在这方面还无法和NVIDIA相抗衡。另外,据我们所知在整个HD 7000系列产品中,暂时只有高端显卡采用了全新的GCN架构,中低端产品依旧会坚持VLIW 4甚至VLIW 5的架构,更专注于游戏性能。这和NVIDIA在中低端产品上剔除有关高性能计算单元、更注重游戏性能的做法有异曲同工之处。
  而HD 7950虽然还没有发布。但据悉,AMD将从它发布伊始就开放非公版授权,届时会有大量非公版涌现。当然,真正的高手是无惧挑战的。HD 7970马上就将遇到挑战者—代号为“开普勒”的NVIDIA下一代产品即将发布。届时又将是一场激动人心的王者之争,预知胜负,敬请关注本刊后续报道。
其他文献
班里要改选班干部,你打算竞选生活委员;六一联欢会上,要你代表全班同学作个简短的发言;你得了社区围棋比赛的冠军,请你在领奖的时候谈谈感想;到敬老院慰问老人,请你代表少先
01减弱亮光使用磁性套索,羽化设置为5,宽度为30,追踪对象。双击鼠标。选择增强>调节光照>亮度/自由度,将亮度调节到-43。按下Ctrl+D取消选择,然后返回增强菜单。在阴影/高光
期刊
你参观、游览过哪些地方?请学习例文的写法,写一篇参观记或游记,题目自定。日本科学未来馆坐落在东京湾的台场。在电车站台上俯视日本科学未来馆,它是个顶部透明的像飞碟一样
尊敬的马校长:rn您好!rn我是苏泳霏.光阴似箭,日月如梭,转眼间,从我插班到现在,两年过去了.
期刊
期刊
烹饪专业项目活动设计倡导“在做中学”的理念,依据实际厨房中的某一岗位或工作任务、菜品以及学生感兴趣的事物,合理地创设情境和问题,让学生在亲身经历中获得经验.其教学可
烹饪专业项目课程设计是以就业为导向,以能力为本位,以技能为核心,将专业理论课程、专业实践课程、专业基础课程与文化基础课程进行整合.在整合过程中,以工作任务分析为基础,
烹饪专业项目课程教材编写应强调项目化、实用性、新颖性.其设计思路是,根据烹饪专业部门或岗位拟定教学项目,明确教学目标.将每一项工作任务都分成工艺、设计、操作三个模块
烹饪专业项目课程的管理采用三级“树枝”型管理模式,该管理模式以专业办公室为管理核心实施一级管理.以专业学部为主体实施二级管理,以专业学科带头人和德育骨干为团队实施