用先发后至和一波三折来形容Titan Z一点都不为过。高调的亮相并给人万无一失的第一印象,之后却晚于强大竞争对手发布,甚至还一度传出了跳票以及cancel的传言。尽管它最终还是来到了我们的面前,但这块NVIDIA的新一代卡皇确实经历了跌宕起伏的两个月。
北京时间2014年5月28日21点,在GTC大会首次亮相近两个月之后,NVIDIA终于在全球正式发布了Kepler架构的最终产品线,基于Kepler架构设计的本代双芯旗舰——GeForce GTX Titan Z。与先前所发布的Radeon R9-295X2不同,GeForce GTX Titan Z除了能够满足以包括4K UltraHD分辨率及多屏拼接在内的各种高清/超清分辨率游戏应用场合之外,还附带了完整的单节点级生产力属性,可以让用户实现与GeForce GTX Titan类似的轻生产力部署能力。
▲GeForce GTX Titan Z
不得不承认的是,Radeon R9-295X2的出现为NVIDIA创造了一个压力巨大的竞争环境,Radeon R9-295X2由两颗频率更高的全规格Radeon R9-290X核心打造,搭载风水冷一体式散热器,采用了“非标准”的能够提供最少450W功率的8pin+8pin外接供电接口,这一系列破釜沉舟的做法创造了一块性能强大同时温度噪音表现俱佳的旗舰卡皇。而这块卡皇,正是摆在Titan Z面前的对手。
▲Radeon R9-295X2
比竞争对手更早曝光,同时采用了常规散热布局,这两点为Titan Z的最终表现埋下了伏笔。外界之所以会传言Titan Z数次延期,大抵上也因这两点而起。Titan Z的实际表现究竟如何?NVIDIA现在发布这款产品究竟是阵前慌乱还是厚积薄发的表现?它是否具备正面承受295X2冲击的实力呢?就让我们接下来的测试来告诉您答案吧。
1、GeForce GTX Titan Z规格一览
●GeForce GTX Titan Z规格一览
GeForce GTX Titan Z采用Kepler图形架构,集成两颗完整规格的GK110图形芯片,拥有124亿晶体管,其运算资源总量因为这种叠加而提升到5760个ALU,Texture Filter Unit增加到480个,构成后端的ROPs为96个,双芯式设计也为其带来了384Bit×2显存控制单元及容量高达6144MB×2的显存体系。
GeForce GTX Titan Z的默认核心及显存运行频率为706/7012MHz,官方Boost频率为876/7012MHz,默认总Pixel Fillrate能力为76.8Gpixels/S,默认总Texture Fillrate能力为338.8G/S,有效显存带宽336.6GB/S。GeForce GTX 780Ti拥有4.06T×2 Flops/S的单精度浮点运算能力,由于其所处的特殊产品地位,GeForce GTX Titan Z同Titan一样保留了1/3速DP的运算特征,因此其单卡总双精度浮点运算能力达到了1.35T×2 Flops/S。
GeForce GTX Titan Z采用的GK110与其他GeForce显卡所采用的GK110同属Kepler架构,但GeForce GTX Titan Z开放了Kepler架构全部功能性设计和特点,这些特点主要由以下主要的部分组成:
1、完整的单节点通用计算特性,包括全部双精度运算能力。
2、单个GPU当中包含5单元的宏观并行结构,15组SMX单元被分为5个GPC,每个GPC包含3组SMX。
3、15组包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元的细节同GK104完全相同,均包含一组改进型的负责处理几何任务需求的PolyMorph Engine,192个负责处理运算任务及Pixel Shader的ALU,16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
4、基于Dynamic Parallelism的全新本地任务管控机制,以及由此带来的更高的单元复用率。
5、调节粒度更细同时频率控制范围更大的新一代GPU Boost。
6、由GPU Boost 2.0发展而来的新一代Power Balance功能。
▲GK110核心照片
Kepler构架曾经是一个充满了神秘感的存在,伴随着GK104以及GK110的陆续发布,我们在过去的两年多里曾经对它的各种细节,诸如ALU团簇单元、Cache、线程仲裁机制、动态频率调节体系等等进行过透彻的相关分析。作为Kepler架构的最终产品线,单卡双芯的TitanZ给了我们再一次回顾和总结Kepler架构的机会。
2、再读GK110的宏观并行体系
●再读GK110的宏观并行体系
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在执行符合DirectX 11特征的程序时,一级任务管理机制只需将Kernel并行的发放给不同的GPC,即可达成整个架构的并行kernel处理过程。因此这种设计不仅可以比较直接的为架构带来更好的几何和光栅化处理能力,同时还可以提升任务的执行效率。
与去年发布的GK104不同,NVIDIA在GK110架构中使用了新的宏观并行结构。GK104的8组SMX单元被两两分组结合成一个GPC,整个架构的8组SMX单元被划分成了4 GPC并行的形式。而GK110则是将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。
▲完整规格GK110架构图
由于NVIDIA采用了Setup以及Rasterizer同GPC绑定的方案,因此GK110架构可以实现单周期输出5多边形,在同频下拥有了比GK104多20%的多边形输出能力以及光栅化处理能力。
宏观并行度的进一步提升有助于体系在处理并行Kernel时的效率,但从外表上来看GK110对于宏观并行度的提升与其运算单元(SMX/ALU)规模的提升并不成比例,单个GPC的规模较之GK104提升了50%,这样的做法给人一种整个架构开始偏重于吞吐而非强调任务效率以及单元复用率的感觉。这是否意味着NVIDIA打算放弃坚持了多年的既有设计思路,开始放弃效率并转向提升架构的吞吐能力了呢?
恐怖的规格和吞吐能力是否意味着GK110的效率会下降呢?
事实并非如此,因为NVIDIA在GK110中为我们带来了另外两个重要的特性——Dynamic Parallelism和Hyper-Q,这两个特性不仅极大地提升了整个架构的任务效率/密集度,同时将单元复用率以及整个Kepler架构的意义提升到了一个全新的高度。
3、最重要特性——Dynamic Parallelism
●最重要特性——Dynamic Parallelism
在GK110架构中,NVIDIA在传统的二级仲裁机制CWD(CUDA Work Distributor,CUDA分配器)之外加入了全新的GMU(Grid Management Unit,Grid管理单元),GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作,令其以更加灵活的方式在必要时进入执行单元,这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM,而且一旦进入SM之后就只能等到全部执行结束才能出来。
▲Dynamic Parallelism特性
GMU的引入为动态片上创建Kernel提供了条件,所以NVIDIA在GK110中引入了全新的Dynamic Parallelism(动态并行)特性,该特性允许GPU根据需要直接对Grid的结果进行判断并在本地创建新的Kernel,这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel再行发放有了很大的不同。
▲Dynamic Parallelism带来的变化(传统模式VS Dynamic Parallelism)
Dynamic Parallelism减少了GPU同CPU之间的通讯需求,减轻了与CPU频繁通讯所带来的等待周期产生的延迟影响,提升了GPU内部的Kernel密度和执行连贯度,对于低负载高密集任务中单元复用率改善有不小的帮助。
4、再议Kepler架构的目的和意义
●再议Kepler架构的目的和意义
通过GK110的“送出去,请进来”,我们已经可以明确的掌握Kepler架构的目的和意义了——Kepler架构的目的在于在NVIDIA从G80一直延伸到Maxwell及其后架构的路线图中扮演承前启后的角色,它尝试着将一部分逻辑判断性任务交给通用处理器执行,同时将一部分不适合通用处理器执行的控制性工作转移到对应的专用单元来处理,以厘清任务执行地点和执行特征、优化任务处理对象的选定、积累通用处理器使用经验以及收集执行过程中的能耗比特征等一系列手段,为未来Maxwell融合架构中最终接纳ARM架构通用处理器打下了必要的基础。
▲Maxwell的后续——Echelon架构细节
而Kepler架构的意义则更加单纯,那就是强调性能功耗比属性。让合适的单元以尽可能合适的功耗去完成尽可能合适它们完成的任务,进而让整个架构以更小的功耗达成更大的性能输出能力,这就是Kepler架构最突出的特征和意义。我们在过去一年间面对的以及等待的各色“黑科技”,包括高效的register体系、新Scheduling过程、GPU Boost以及Dynamic Parallelism等等,全部都是为这一意义而存在的。
通过调节SMX结构提升体系的吞吐能力,同时以优秀的缓冲体系、合理的仲裁和任务管理机制以及各种全新的技术来保证体系的单元复用率以及执行效率,这种平衡的理念赋予了Kepler架构强大的性能和成熟稳健的性能功耗表现。Kepler架构的注意力并没有片面的集中在某些特性或者单纯运算能力的提升上,它对任务分派管理机制的调整和改进属于最底层的架构效率优化,正是这种能够让所有架构中运行的任务,无论是运算任务还是图形任务均能受益的改动,为Kepler带来了令人难忘的表现。
▲G80~GF100架构发展示意(图片引自后藤弘茂先生博客)
当然,我们同样不能忘记那些站在Kepler背后的英雄们,Kepler之前诸架构对于任务管理体系的不断完善,寄存器及寄存器溢出缓冲体系使用经验的积累,架构设计理念的逐步验证、检讨和补充修正同样是造就Kepler架构的成功的重要因素,而正确平衡成本关系并在DirectX 11时代的起点划下了空间充分的D线,又在可制造型层面为Kepler架构的最终实现奠定了最根本的基础。NVIDIA充分的计划性和推进这些计划的执行力,逐渐将这些积累转化成了实际的架构和产品,并最终带来了今天我们所见到的基于GK110架构的产品。
除此Dynamic Parallelism之外,GK110架构还将更多更新的技术引入到了体系当中,其中最典型的就是全新的GPU Boost——GPU Boost 2.0。
5、GPU Boost 2.0+G-SYNC
●GPU Boost 2.0+G-SYNC
GPU Boost是NVIDIA在GK104中首先引入的动态功耗/性能平衡调节机制,它可以动态游戏及应用负载,并将负载同设计功耗上限进行比较,接着将实际负载同设计功耗上限之间的差值转化成实时频率的提升,同时还能根据用户自定义的游戏帧数上限来判断性能需求,进而将多余的性能以降频的形式予以消去,并最终让用户获得更低的使用能耗。
▲GPU Boost 2.0
伴随着GK110架构的到来,NVIDIA将GPU Boost从1.0升级到了全新的2.0版本,新版本GPU Boost支持以下新特性:
• 更细腻和敏感的频率调节段位。
• 温度监控出现在控制要素中。
• 更加集中于“常规使用温度区间”的性能调节区间。
• 拥有更大的电压调节上限。
• 支持全新的电压上限/温度联动调节功能,GPU温度越低,可用的电压上限就越高。
• 支持温度目标值设定及对应的自动调节频率功能。
• 更多可调节选项。
• 显示器刷新率调节功能。
▲GPU Boost 2.0提供了更丰富的可调选项
GPU Boost 2.0比1.0版本更加敏感,可以更加积极的完成功耗和性能之间的互换,其调节模式也发生了变化,监控机制对GPU频率的调节判断机制将不仅限于功耗数值,温度因素现在也已经被纳入到了判断机制当中。在GPU Boost 2.0默认控制下,GK110架构将会在更多的时间里处于80度附近这样一个小范围的温度区间中。玩家现在除了可以通过限定自定义帧数上限来达到节能降耗的目的之外,还能通过设定任意的自定义温度上限来达到相同的目的。
▲GPU Boost 2.0特性
▲GPU Boost 2.0特性
除了加入温度要素之外,GPU Boost 2.0还开放了电压控制的上限,玩家在进行超频时可以拥有更大的电压可调空间。另外,电压上限还可以与温度因素进行联动,如果玩家有能力改造散热并达到更低的使用温度,那么在GPU Boost 2.0中将可以获得比常规散热更多地电压上限空间。
▲G-SYNC技术
GPU Boost 2.0引入的最后一个值得注意的变化来自全新的显示器刷新率调节能力,该能力目前已经演化成了更为完善的G-SYNC技术,这项NVIDIA于2013年蒙特利尔媒体日上发布的全新技术从根本上解决了画面的卡顿及撕裂问题。我们会在未来展开针对该项特性的专门解析和测试,敬请期待。
6、精彩的分享——ShadowPlay
●精彩的分享——ShadowPlay
作为NVIDIA全新推出的游戏分享技术,ShadowPlay并非GeForce GTX Titan Z的专属新特性,但它在后者的服役生涯中同样会扮演重要的角色。该技术由Kepler GPU以及GFE软件两部分所组成,其作用在于以近乎无损性能的方式在游戏过程当中实时完成高清游戏视频的截取,同时完成近乎实时的上传分享。
▲全新游戏视频截取技术——ShadowPlay
ShadowPlay的视频截取过程可以充分GK110 GPU的硬件来完成视频编码过程,整个过程不会占用额外的CPU以及其他系统资源,因此对实际游戏帧数影响甚小。根据大会现场NVIDIA所演示的游戏实况,ShadowPlay即便是在进行1080P分辨率视频的实时录制时,对游戏的帧数影响也可以控制在1~2帧左右,几乎达到了无损的程度。
▲ShadowPlay可实现多种分辨率视频截取
ShadowPlay同时支持从普通的480/720P一直到Full HD的1080P在内的多种不同分辨率的视频录制,同时还可以通过GFE软件简单实时地完成视频分享过程,视频上传到网络中的整体延迟仅为当前画面后2~3秒左右,这几乎等同于现场直播你的游戏过程。借由GeForce GTX TitanZ来实现实时的将逼真的高清分辨率游戏过程进行分享的感受,这是传统硬件以及其他解决方案无法提供的。
7、GeForce GTX Titan Z细节
●GeForce GTX Titan Z细节
▲GeForce GTX Titan Z
▲GeForce GTX Titan Z
▲GeForce GTX Titan Z
▲GeForce GTX Titan Z
▲GeForce GTX Titan Z PCB
▲GeForce GTX Titan Z
▲GeForce GTX Titan Z散热方案
▲GeForce GTX Titan Z散热方案
▲GeForce GTX Titan Z
8、测试平台硬件环境一览
●测试平台硬件环境一览
为保证测试能够发挥显卡的最佳性能,本次测试平台由Intel酷睿i7-3970X处理器、ANTEC H650水冷散热器、技嘉X79芯片组主板、威刚4GB DDR3-1600×4四通道内存、影驰战将240GB固态硬盘、ANTEC 1300W白金牌电源组建而成。详细硬件规格如下表所示:
●测试平台软件环境一览
为保证系统平台具有最佳稳定性,本次产品测试所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示。
在测试成绩方面,理论性能测试用得分来衡量性能,数值越高越好;游戏性能测试用游戏自带Benchmark记录平均帧数来衡量性能,数值同样越高越好。
9、理论性能测试之3DMark FireStrike
●理论性能测试之3DMark FireStrike
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
▲3DMark FireStrike
▲GeForce GTX Titan Z测试成绩
驱动问题给我们的测试带来了一个不算太好的开端,无论是最终的跑分成绩,还是相对于其他GK110架构单芯显卡的提升幅度,TitanZ在新3Dmark当中的表现都谈不上优秀,但愿这种现象能够在后续的驱动当中得到缓解。
10、理论性能测试之3DMark 11
●理论性能测试之3DMark 11
PC游戏随Windows 7的发布进入DirectX 11时代,众多DirectX 11显卡早已摩拳擦掌上阵厮杀,却迟迟没有一个权威性的基准测试软件来衡量游戏显卡DirectX 11性能的高低。终于,DirectX 11时代的3DMark 11来到大家面前。3DMark 11使用原生DirectX 11引擎,测试场景包括Tessellation曲面细分、Compute Shader以及多线程在内的大量DirectX 11特性。
▲3DMark 11
▲GeForce GTX Titan Z测试成绩
与新3Dmark一样,3Dmark 11的测试同样受到了来自驱动的困扰。如果想让TitanZ获得更好的表现,NVIDIA还需要在驱动上下一番功夫。
11、满载温度测试
●满载温度测试
在温度及功耗测试环节,我们继续采用Furmark满载的方式让显卡达到全负荷工作,以此收集GeForce GTX Titan Z显卡的满载温度。
▲GeForce GTX Titan Z满载温度
Furmark应用测试可以完美支持GeForce GTX Titan Z的两颗核心同时运行,通过测试可以看出,GPU Boost在这类测试当中发挥了明显地作用,GeForce GTX Titan Z在风冷环境下的满载温度同其他GK110相当,均在80度附近。
12、全文总结:有生产力的游戏卡皇
●全文总结:有生产力的游戏卡皇
更低的功耗,更高的温度,更昂贵的价格,和Titan一样完整的生产力属性及使用方式,和竞争对手一样“强大但严重依赖驱动”的游戏性能表现,这就是GeForce GTX Titan Z留给我们的印象。以一份稍显迟到了的作业而言,这结果应该算是意料之中,谈不上惊喜。
当然,有一点需要注意的是,我们所获得的Titan Z样卡以及驱动均为早期版本,随着NVIDIA的后续进行的调整,Titan Z的表现应该还有进一步提升的空间。
▲GeForce GTX Titan Z
与Titan一样,Titan Z并不是一块单纯的游戏显卡,它确实具有强大的游戏性能,但以个人为目标的通用计算/开发/生产环境,包括低强度个人节点超级运算、HPC相关程序开发及快速调试、低密度大规模并行计算功能体验等场合才是更适合它的归宿。另外,说到生产力,值得注意的是在生产力属性的开放层面上NVIDIA一如既往的小心谨慎——Titan Z并没有因为单卡双芯的存在形态而开放跨节点互联并行工作的指令集,换个直白的说法,就是它在生产力属性场合仅仅是两颗连接在一起但独立工作的Titan/TitanBE,同Titan/TitanBE一样无法形成双节点或者多卡多节点并行部署能力。
▲GeForce GTX Titan Z
未采用水冷虽然是一个“正常”的选择,但由于Radeon R9-295X2的出现,这一正常的选择未必会为舆论以及部分玩家所接受。GeForce GTX Titan Z虽然功耗更低,但风冷所带来的高温和无法回避的噪音确实无法与竞争对手的水冷方案相提并论。尽管水冷方案并不是一个理智且值得鼓励的选择,甚至可以说是开了一个极坏的头,但在竞争终极卡皇的过程中没有预估到竞争对手的决心和行动力,最后不得不以两颗风冷低频版Titan BE去应对对手的两颗液冷高频版R9-290X,这的确是NVIDIA的失误。
当然,你也可以说Titan Z“并不是显卡”,NVIDIA还有诸如GTX790之类的后手,但在Kepler架构已经问世50个月以上,Maxwell都已经登场数月的今天,继续去部署GTX790这样的显卡,真的还是一件有什么积极意义的事么……
▲还会有GeForce GTX 790么?
整体而言,Titan Z确实是一块游戏性能强大的显卡,足以问鼎当今显卡业界的翘楚之位,它同时还能提供较为完整的个人超级计算体验,并能在一定程度上形成生产力,但它身上的所有特征和优势几乎都是几十个月之前就已经注定了的,所以并没有给我们带来太多值得回味的激荡或者触动。至于这样的显卡是否会满足您的需求,后续还会不会有游戏性能更加出色同时更加便宜的无生产力属性版本单卡双芯,也就是GeForce GTX 790之类显卡的出现,就交给屏幕前的诸位自行判断吧。
最新评论