|
|
前言&规格对比&外观赏析
, j' f6 u% |1 k8 V- L6 u9 p$ W 写在开头4 a" Z/ {) z) c5 F
RTX 40系显卡的推出后,强劲的性能、极致的功耗比无疑是给游戏玩家打了一针强心剂,不过老大哥RTX 4090、RTX 4080甚至RTX 4070 Ti过高的售价让游戏玩家望而却步。为了让更多玩家用上既有强劲性能又能维持合理价格的显卡,老黄终于掏出了全新的GeForce RTX 4070显卡,新显卡兼具更高的性能、更低的价格,相信会成为更多硬核玩家的首选。$ N: K* j/ o" Y( J
( [6 l5 L( G1 f$ C, \9 C& L1 m
7 J3 d6 e+ _; F& K/ r3 d
1 ]% W3 O- x6 m! q1 g1 P9 z1 ~
技嘉作为NVIDIA最重要的AIC厂商之一,也在第一时间推出了多款RTX 4070显卡,它们的配色、设计等各有侧重。此次我们收到的是其中的顶级旗舰——技嘉GeForce RTX 4070 MASTER,众所周知MASTER作为技嘉的旗舰产品,做工、用料等方面都是顶级中的顶级,这次的产品更是一如既往的豪华。闲言少叙,我们一起见证这张顶级用料的RTX 4070显卡能够带来怎样的表现。
1 f9 J; n7 @5 S r& Q8 o*下文"技嘉 GeForce RTX 4070 MASTER 12GB"简称为"技嘉RTX 4070 MASTER"8 c+ \% s3 G: m/ Z3 \6 {
规格对比% j: N7 M# S" b; L% H6 Y
在开始测试前,我们先了解一下技嘉RTX 4070 MASTER的配置,首当其冲的自然是显卡的"心脏"——AD104核心,在RTX 4070 Ti首发测试时我们知道,那上面搭载的才是完整版的AD104核心,而RTX 4070上的这颗则是阉割版。! {2 A( e/ J4 U7 D
6 l, O, O& n! i5 m" m1 Y4 R' I, j- [# Q( v7 E# R3 a
- X+ |5 L/ U/ \% j7 C' T3 _+ q v从下图可以看到,完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。
% y- A5 Y- @; W j% Y/ ~& \' C
: ?2 j0 n: q" V2 w9 Q
8 r5 Q) j! r' R8 u+ W& [! c- s& C _& ~% ~: a/ M
而RTX 4070上的这颗AD104核心则只有4个GPC(图形处理集群),其中1个GPC也是经过阉割的、另外还有23个TPC(纹理处理集群)、46个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。二级缓存部分也与RTX 4070 Ti有细微差距,RTX 4070 Ti为48MB的二级缓存,而RTX 4070则是36MB,不过相比起前代的RTX 3070或RTX 3070 Ti的4MB二级缓存,可以是降维打击了。3 N3 P" Y) q9 A5 B7 {& X$ V: A
% B1 B: V0 I+ J3 E' z. t2 @
, p' q( R9 _* T& A
! W4 ^! }: f: |3 ]$ \' s
除此之外,技嘉RTX 4070 MASTER上的这颗AD104核心被命名为AD104-250-A1,TSMC 4N工艺制造,芯片面积为295平方毫米,虽然不及上代的面积大,但因为工艺制程的进步,技嘉RTX 4070 MASTER上的这颗AD104内塞下了更多的晶体管,足足有358亿之多,并且频率上也往前迈进了300MHz以上,可以说是全方位的领先。
% @2 B: E/ x+ z
- f. T$ n+ x7 C; M7 s3 z1 B
& M T7 L& x" _& A
# [ r) p( C5 C/ K6 e+ [其他参数也是堆料十足,5888个CUDA,46个第三代RTX Cores,184个第四代Tensor Cores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。3 T0 ^2 S( R2 z- }+ H' m0 H
外观赏析1 `$ C% M& f4 D3 ]' _
千呼万唤始出来,技嘉RTX 4070 MASTER的外观还是家族式的味道,正面用上了磨砂、线条以及切割纹理三种工艺,硬朗的设计风格无时无刻彰显了这张显卡的高级感与设计感。
: L) Z1 y& R; B8 [% d! E( Y6 f+ l! b2 r9 ~$ N
9 A5 f" w; {8 W* s7 H: F& j- l0 H$ ~
正面最吸睛的莫过于3个108mm 的AORUS鲨鱼仿生风扇,左右两个以逆时针旋转、中央风扇顺时针旋转,借此降低三扇扰流,带给散热器更多的散热气流。黑色一体的设计也让显卡颜值别具一格。
* `* c# d2 v I ^ y4 y
/ q4 ]: ?6 I5 x& a4 x% d9 G8 _5 G) i' w. J# s0 S5 E
1 l" X( \. [8 i3 a6 t# J0 r5 e值得一提的是新的仿生鲨鱼风扇还在扇叶表面进行了创新,如同鲨鱼皮肤上盾鳞一样的纹理设计,不仅外观颜值更为炫酷,还实现了3dB的噪音下降和30%的风压提升,这也让笔者对它的散热充满期待。
9 Z" a* h+ h1 t0 d1 L
2 y$ ^8 p' z' B- ]3 h7 N1 |+ G( B2 U/ Q
! K$ ^' k; _! N2 s) S1 n$ i; O$ A% b3 a
技嘉RTX 4070 MASTER的背板则是金属材质,这与大多数显卡设计一致,不过值得一提的是,银色的金属拉丝与灰色的磨砂设计融于一体,中央位置还有一个可发光的"AORUS"品牌印记,质感拉满。6 s: ~- q& j& w8 u* `3 h7 M/ K
% }) R2 E5 K! }( i1 {/ ]. ?- ~1 P: W
: T7 D# b8 c6 o, Z6 c+ i5 c
C' T) p; x2 N
背板上还有镂空的鳞片散热窗口,空气可以更快速的通过内部,与正面三个强劲的仿生鲨鱼散热风扇配合,助力显卡高效散热。- ~% r# p! P3 q) ~8 L. V- j' ?' R3 |0 W& P
+ S" d7 E% A5 \! i6 Q6 n
& L7 U; u6 X6 i# F+ Z& N$ [4 w( a
2 |5 e8 h( ^3 M0 c9 D/ x换个角度观察这张显卡,顶部是一整排的出风口,横跨整个显卡顶部,加速热量排出。出风口的旁边则是标志性的12VHPWR接口,单口即可拥有600W的澎湃动力,应付RTX 4070 MASTER是绝对足够的。! q" D$ x6 C0 Z+ e6 B4 }
! G) A Q( @! ~- W+ X
8 M7 {4 W3 ~7 C6 [. [ W; T
' |6 ~' G- I* }抽丝剥茧,在这个供电接口的背后还有R22电容坐镇,为显卡提供更稳定的电量支持,这也是技嘉RTX 4070 MASTER能够满血输出的重要支持之一。
# K8 J, Z" ^; R/ p. S; y) ?8 R& w% z/ N6 ?3 f
5 N+ M' l% h# [' C0 L' e) s8 [" J' @# x2 J6 I) i2 f
眼尖的玩家可能发现了,在电源的底下还有双BIOS的控制开关,并且在背板上印上了OC模式和SILENT模式的标识,用户一键即可切换,随时感受咆哮的性能与安静的环境。! k$ [ {7 a. l) F2 \, S
9 E% f6 d! r' G4 ?* i1 v) N$ J& i5 f
7 ?, j" d) G* T除此之外,显卡在散热器系统里面还搭载了经典的"三环灯"RGB彩灯系统以及搭载了印有"AORUS"的灯牌,彩灯系统可以通过灯效软件可以实现多种同步的灯光效果呈现,玩法十分丰富,打造专属于你的技嘉显卡。
. c* E& I! X3 j! v" S, ^7 H7 p D9 J2 G: j
2 q D" o+ m; M- T- E" ^. p8 U% r& g9 Y. N b& L/ r
而灯牌则支持RGB灯效,能够与主板上其他的硬件同步灯效,一致的灯效在视觉效果上更加震撼,给这张显卡的颜值又增添了浓墨重彩的一笔。+ }# J6 G) ?3 E# {
, \- [; {* t |3 l3 M6 z% m# n
: a" E- N/ ?8 Z5 G
1 I4 @% Z, x" R( E5 p8 r当然不止正面能亮,背面一样有RGB加持,印有"AORUS"的装饰条在显卡点亮后也开始闪耀起来,与正面璀璨夺目的RGB灯效交相辉映。
$ B6 b# z) a R5 Y: J% A" z: R8 ?: k4 W! |5 U+ F
) ]& V' z2 v& }2 w# w# ]! M) S" m5 M3 l+ o% n- s2 u7 h
视频接口方面,技嘉也是毫不吝啬,给它配备了3个DP1.4a和1个HDMI2.1,支持4屏显示或最高8K@60Hz的超清输出。
: ]7 D( A! ^( `2 q. l, h6 `3 K/ s( i) k" O
' \1 P& f5 L v g# K6 ~6 R1 ?
: J. t: F& E5 `, x2 W总的来说,这张技嘉RTX 4070 MASTER显卡不仅颜值出众,配置更是"重量级",中端级的显卡但却有着高端显卡才有的待遇,其他RTX 4070放在它隔壁都略显逊色,不得不说初上手这张显卡时,就爱不释手,这才是顶级非公应有的表现。
9 s, q7 P+ \! @0 X( {6 p显卡拆解
( c6 e A9 `3 Z U" J g 显卡拆解
& i' j9 C( Y8 R2 o r7 D& B显卡拆解也是评测不可或缺的一部分,拧下金属背板上的多颗螺丝后,PCB就可以跟散热系统分离了,整体拆解难度不大。从这张图可以看到技嘉上用到的这个散热系统堪称巨大,想必它的散热效能也是一流的水平。& q3 M' w3 ~/ n
0 N5 _$ T8 X$ [; p- D! @4 y
( A5 b0 B! X- x! Y9 b- B) s; m8 p% N, X$ H) [9 d
首先看看PCB的正面,PCB上的接口、供电、核心、显存,以及辅助供电位置都相当的合理且规正,有大厂出品的质感,内部PCB电路使用了全自动制程技术,精密自动化制程可进一步提高可靠性,并且PCB也支持三防保护,将防护性拉满了,让PCB更持久耐用。2 f$ U) K, C1 a* o& |! _3 a3 I2 ^
6 a, T' |, M+ V
7 o; ]# D3 u! ]( G
' T2 g( ?# [+ }4 DPCB的背面主要是一些控制芯片,相比正面要简洁不少,不过从背面依然可以看到核心上安排了POSCAP(导电聚合物钽电容),有助于提升显卡的电气性能。
! \$ j! a& R# Q0 G3 O% P/ f- O& n$ U, k' I
' L+ J- b0 {+ G8 I' Q& g) j! B3 p9 |) Z3 ^4 K
PCB上的主角永远是这颗性能强劲的"心脏"——AD104-250-A1核心,TSMC 4N工艺打造,295mm2的芯片面积内塞下了5888个CUDA 核心,同时内部还有46个第三代RTX Cores,184个第四代Tensor Cores以及36MB的L2缓存,性能强劲不言而喻。; d/ \ j( g. ^9 {9 f9 U
3 p/ z9 N" a) H7 u4 m: m! W. e% F0 W2 c
( _9 `1 @1 y ?! T. W& `) q1 z/ n% v5 K6 y( l* m
核心的四周就是NVIDIA与美光独家研制的GDDR6X显存,足足有6颗,型号是3CU47 D8BZC,单颗显存容量为2GB,6颗显存共组成12GB。要知道上代的RTX 3070也只给了8GB,现在给到了12GB,大显存给你更极致的体验。
# ^. `! z! S4 i! P0 j" _
7 q2 N% J+ p0 i4 x, B7 l' g- P) i: U7 y9 B1 X5 x
{& T# }& Q" Z j5 W供电规模也是Top的级别,足足有12相,要知道这个配置基本是RTX 4070中的天花板级别了。12相供电中有10相是核心供电,足以支撑AD104核心的强悍性能,剩余2相则是显存供电。1 H' r) |4 p, h8 `
' t# m6 F! | _+ }" j" P o" o. O- r$ r5 j' E9 K9 G4 P
, s" V& I" C( b, U而且每相供电都有提供过温保护设计和负载平衡,再加上长寿命固态电容、合金电感、2oz铜PCB与低电阻式晶体管等耐久用料,提供强劲的显卡性能和更长的使用寿命。! O. G' T6 U, D& z$ ?
继续探索,每相供电均采用独立的DrMos芯片,型号为SiC653A,每相最大可承载50A的持续电流。
' M1 m6 G% N1 q* n" p# A! s2 h) x& h2 c" W' Q+ T- I9 L
& b+ C5 K. v$ @& C7 B6 ?* X8 j7 r) ]6 M5 t" a; B
甚至就连显存供电也用上了SiC653A,与核心供电同等规格,可见堆料之豪华。8 V' G. d C/ C1 A) H/ }# _1 E2 Z
9 `# u% }/ w$ b. W9 N$ r# P1 ?, ^" H3 ^8 B$ k& m8 A% F% ~
E- q x" h. p) ^
PWM供电芯片则被安排在PCB背面,型号为uP9512R,是我们的老熟人了,其可用于管理核心供电。0 Y2 y$ {3 b# Q4 F* T' R9 M2 T( T
: L Y: ?; M( u8 S# C' S6 o& I5 v% r9 Q. k
/ a5 X6 [9 B' C8 A( C, X
在不远处还有一颗uP9529Q芯片,它的作用就是管理显存供电,而uS5650Q则担任电压/电流/功耗监控的工作,同样是不可或缺的芯片之一。! X6 k3 H& P" B, F
3 g. q3 N" |* _" v% Q4 Y7 t# N, I2 I0 I
/ N, x! s" y; k' \ e+ L, |. Z
PCB上还有不少不起眼的芯片,但却肩负着"重大使命",其中就有双BIOS的控制芯片,型号为IS25WP016。
8 q. ^! i" v: P, a: X" o- j; L0 V
C! H1 i+ R' p( C4 x" L x
/ ?; k! Y2 a) @ Q. R% Q. z; ?% p- T2 ~, \
而HT32F52352芯片则是来自合泰,它是显卡的RGB控制芯片,你所见到的炫酷灯光就是它的功劳。
, L# K& e$ O3 \
6 }/ _% L. |0 `( U) U
6 U! p( r" |" M8 d+ ~! X: ]% [) I1 r+ c0 W- Z
看完了密密麻麻的PCB电路板,一起见识一下"风之力散热系统",感受极致的散热效能。拆下风扇和散热器后,可以看到技嘉RTX 4070 MASTER的散热器本体,这一代的散热器相当庞大,不仅能够给GPU散热,还为显存、电感以及MOS管等进行散热。+ H# F3 `2 a' V. z3 ^$ T
" u+ |) d8 s7 n' p$ s, C) K* g; ~4 v" t2 u/ R
: k+ I8 B4 i& r/ M
在显存和供电部分都配上了高系数的导热垫辅助散热,GPU核心也抹上了厚厚的硅脂,显存位置更是紧贴均热板,超高的散热效能助力这一代显卡强劲的性能释放。
, @. d" H1 |; P. \- |
' s7 ?. C, s3 i% N% f; t. J& q# d# N" [; Q
# T' U2 s! V0 b7 j+ l8 z F. h7 k
散热器本体为两段式散热模块,左边是庞大的均热板,右边是密密麻麻的散热鳍片。
9 @% ^9 @, G- M; t1 e9 W9 F, V
8 y2 b4 m+ C" j9 P; D0 p# i8 f" e0 \' P( | k0 x
9 O- [: c+ V" P* \从侧面可以看到两边的散热鳍片均增大了面积,并且采用弯角造型,进一步增大了鳍片与空气的接触面积,最大化热量的快速散出。( U. s$ B( g& ?! ~; N
1 d8 y- y. }; A9 q/ z, {& y' O* B' p) |/ u) I# _! S
& q I; a/ |1 o' t/ D/ l0 c+ I更恐怖的是,技嘉RTX 4070 MASTER的散热系统还配备了9根复合式热管,超规格的配置让散热效能更进一步。% k' x$ |2 \) J9 N2 R* y
, v" f) e# W8 z7 w
' @) k7 E) B9 N" u8 n4 ~9 c! w1 i% ], | N" t
这9根复合式热管更是贯穿整个散热器,紧贴均热板与散热鳍片,这样的夹心设计搭配回流焊接工艺加持保证高效导热。% |0 w2 ]: [2 M+ W: s$ b7 E% J- D
1 o" \; v# \" z% {5 e% c
2 z' ~) e" R* d _4 x5 M
7 D' C0 ]+ p o! W' x, Q9 X从这个角度能看到散热鳍片的厚度同样惊人,不得不说技嘉在"风之力散热系统"上下足了血本,因此它的散热效能无需担心。' v S1 ?. C, c4 s' ^
E( a% l7 c+ b# }% C3 u+ ]
' I: o/ q7 K7 h5 H* O$ Y. J
% n1 S. u) l+ Y% a* G主动散热部分,散热器上配备的是3个108mm的仿生鲨鱼风扇,经过升级后,启用双滚珠轴承且支持3D启停,因此这三把风扇在提升风流量的同时还能减低声噪,更高速有效地散热,轻松应对RTX 4070。9 @1 J" T; n9 q" X- F+ Z3 T
& v8 P( y* f2 z% k* n9 c* T
" }) K% e$ o( Y7 A6 X( R( k) S2 b) g/ A
最后来一张全家福,技嘉RTX 4070 MASTER的堆料可以用豪华来形容,与老大哥同款的散热配置,完全有充足的余量供玩家发挥,这也让笔者对它的超频充满期待。
: s. y. ^ Q$ x2 n$ h( R* y: C* C. o8 x4 v2 [1 W! ]! G6 `
1 d8 A5 a2 Z' G4 d+ k) L
' F3 c! x4 A, d. M8 J测试平台&理论与游戏性能1 _3 i; c o0 t9 M: e
测试平台介绍) x0 Z r$ H+ ]( \; J6 G
首先介绍一下本次的测试平台,我们用上了评测室的最强硬件,CPU使用的是目前的旗舰——Intel i9-13900KS处理器,主板为同款的Z790超级雕主板,双雕组合才能迸发最强战力。当然内存也是给到了顶配,辅以金士顿32GB DDR5-6000高规格内存,确保这张显卡能够释放全部性能。
2 I' `) i4 O' N8 ^7 |
1 Q \9 H, V9 v C% u- H7 V" X" O
+ O% S* q+ _( G
; l0 X, z1 z7 c6 V; X测试平台方面我们已经祭出了目前地表最强的硬件,那拿来衬这张显卡的显示器自然也不能弱,用的是技嘉旗下的M28U显示器。你可不要小看这个显示器,虽然它外观上低调内敛,但内在配置堪称顶级,4K@144Hz的高刷和SS IPS面板,丝般顺滑畅享市面上的3A游戏;3个高色域容积和平均0.52的色准表现惊艳众人,现在它已经成为笔者日常修图、看资讯、看视频的主力显示器。$ y7 x" @# W' f" @
3 Z6 B* r8 z) ~# B7 t2 y
9 h; L4 Q1 s' h' V0 S
8 d! u2 P6 ?. q( w. V; L3 y新显卡新电源!介绍一下本次的"硬实力"担当——技嘉UD1000GM PCIe 5.0电源,基于主动式PFC + 半桥LLC谐振拓扑 + 同步整流 + DC-DC结构打造。额定功率更是达到了1000W,全模组接口设计方便安装,并且通过了80Plus金牌认证,兼具高性能与高稳定。- q# ~# F' e" M3 r' x
* g' ]# R2 f$ u. u9 Y) l
1 L, ~6 o/ e3 f% a/ k! N5 I+ x
2 @) N4 ], l! C. y当然技嘉UD1000GM PCIe 5.0电源的特色就是提供了原生的+12VHPWR接口,因此只需要使用1个模组接口就能提供600W的输出功率。用它来带这张不足300W TDP的技嘉RTX 4070 MASTER可以说是绰绰有余了。
0 h! H* B- G! B! z5 E; G# r6 T看完了我们的装备,就该研究一下这张全新的技嘉RTX 4070 MASTER显卡了。通过GPU-Z看看显卡的规格参数,这张显卡的加速频率会比公版高一些,达到了惊人的 2595MHz,甚至比不少带OC后缀的RTX 4070还要激进,可见技嘉对这张RTX 4070 MASTER信心十足。
/ [( Q# p2 ]& N: B8 X) Z3 ]; S2 @7 {! G+ X5 w# | b" w
" r/ U/ `& s1 l0 g% Z
9 u# p. T: d( E$ t其他配置方面,该显卡拥有5888个CUDA单元,12GB GDDR6X显存,192bit显存位宽。TGP更加恐怖,足足350W!温度墙也跟RTX 4080为同一水平线的88℃,横竖都看出了这张显卡的不一般,技嘉显然是给超频玩家预留了足够的空间,想让发烧友在这张中端卡上也能一显身手。$ Z) { \) \) v* J6 Z
理论性能测试
4 S1 @0 R8 v6 q) A/ C作为专业面向显卡性能测试的软件,3DMark的测试是有非常标志性的作用。在3DMark测试中各个细分测试项目里面,技嘉 RTX 4070 MASTER显卡的性能表现非常出色,可以全面体现出高频版本RTX 4070显卡所具备的性能水平。
6 D; k/ Q& v$ b# u- ~ |9 b* d特别是加入了公版RTX 2070 Super、RTX 3070Ti和RTX 3070作为参照后,这张新显卡的优势尽显,不论是在常规的显卡性能测试,还是设计DLSS功能的性能表现,其成绩数据体现了要全面优于上一代RTX 30系列,理论性能表现是RTX 3070的1.3倍,约为RTX 3070 Ti的1.2倍。# W- V2 M3 @' C: f
9 Q* w/ x9 J+ A
' I! H3 ~9 d, W3 c1 W; v' F
1 w0 B# [% {- Z- z z, f而在GPGPU理论性能测试方面,拥有Ada Lovalace架构的RTX 40系列显卡在算力上也有出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。技嘉RTX 4070 MASTER相比RTX 3070 Ti显卡有着巨幅提升,领先幅度足足有40%以上,整体性能也是RTX 3070的1.5倍左右。
* }9 w1 l1 T8 ~& l
6 N9 ?8 ~7 K" Z N5 E& @
6 g5 u0 t1 d( d0 E# h: f! K8 A g" e9 Z
游戏性能测试' x0 p `1 C9 x) h2 \5 m
总算来到游戏玩家期待已久的游戏测试环节了,先看看1080P下的成绩,技嘉RTX 4070 MASTER一骑绝尘,不少游戏都超过了150 FPS以上,要知道这还是只是开启DLSS 2的情况,如果搭配老黄的独门秘技DLSS 3一起使用,这个成绩还将有翻倍的提升。更直观的对比下,这张新显卡对比RTX 2070 Super,帧数几乎是翻倍的提升,即便是面对上一代的RTX 3070或RTX 3070 Ti,在DLSS 2下已经有30+ FPS的差距了。! P8 c) A# t8 t0 a3 i# [. j
7 n( ?, a, E/ f
6 Z# Q; M' v) Q* |# b2 w5 B/ L4 q! U5 J
/ M; q$ ?. Z% K" J7 p3 M5 g: t2K分辨率就是技嘉RTX 4070 MASTER的主战场了,大部分游戏依旧有120 FPS以上的水平。像优化极佳的《地平线5》,这张显卡的帧数去到了152 FPS!当然30系的两款70级显卡也能玩,不过换装技嘉RTX 4070 MASTER后你可以体验2K高帧甚至高刷的游戏体验,开启DLSS 3后,性能差距更甚,这是两张30系显卡所无法比拟的。0 v) y' m2 [$ L$ L
- c& v; \( u, B
* `# A- f8 R( l" A: w
* s- j, L b0 _% o实测下来,技嘉RTX 4070 MASTER不负2K高帧游戏显卡的称号,尤其是随着分辨率的提升,部分光线追踪能力要求更高的游戏提升就越为明显。整体性能领先上代70级足足有26%以上,即使是面对自家的RTX 4070 Ti也丝毫不虚,性能差距较小,但售价更低,无疑性价比相当突出,可以说是最值得购买的2K游戏显卡。. [5 D0 m; G7 p
DLSS 3性能测试# [6 x# p* k& c5 Q: o2 C
DLSS 3性能测试
1 T$ O% l6 l% u( P/ H/ bDLSS可以说是AI时代最具革命性的突破,随着DLSS的更新,现在已经发展到了3.0时代。全新的DLSS 3技术不仅可以大幅提升帧率,还可以让系统延迟大大降低,生成的画面更是足以媲美甚至超越原始渲染的效果。我们也是准备了一系列的测试验证DLSS究竟有没有老黄说得那么神。9 c' c! G9 q/ o, ?6 S! ?/ K% `
2 I' r7 |5 ]7 ^ d) M6 r- K
! ~( P' j1 J* @' E' r i4 `' e* m0 D1 s0 N/ {
3DMark DLSS 3性能测试% S" G* ~7 R& ]0 E, G
在3DMark的DLSS 3测试中,技嘉RTX 4070 MASTER仅开启DLSS 2的情况下就已经能够实现2K@120Hz,4K@60Hz的游戏体验了;如果开启DLSS 3后,2K下帧数能够上升至130FPS,4K画质下也能勉强体验90Hz的高刷效果,这样的表现完全可以称它是2K高帧游戏神卡了。5 [5 W5 c& _ X, c- |9 S) e
2 j5 `9 ~& |! O( W' l, x% S
9 L3 Z7 B3 Z" j2 J4 w5 ]
& ^& \! z; D* Y( [《微软模拟飞行》游戏实测
; F) `9 I8 q% N2 F' n4 Z光测试理论性能肯定是不够的,现在支持DLSS 3的游戏已经上升至50款,因此我们也选用了一些热门游戏进行详细测试。在对硬件要求颇高的《微软模拟飞行》中,技嘉RTX 4070 MASTER开启DLSS 3后对RTX 3070 Ti简直是降维打击,1080P分辨率下几乎是2倍的帧数提升,2K分辨率下也比RTX 3070 Ti高出60多 FPS。另外值得称赞的还有技嘉RTX 4070 MASTER仅用149W的功耗就实现了2倍于RTX 2070 Super的性能!这波Ada Lovelace架构与TSMC 4N工艺功不可没。; |" X" i7 W1 t1 q2 X( Z
! U" s& Q @) w% |* g ~( b8 S4 e# L2 J* ]* b4 x
: b2 K3 {& M7 m在其他几款游戏中也是如此,技嘉RTX 4070 MASTER在开启DLSS 3后,游戏帧数相比RTX 3070 Ti都有60%-70%左右的提升,不少项目更是有翻倍的帧数提升,并且功耗都更低,用更低的功耗实现更强的性能,这才是旗舰显卡的独到之处。6 I8 |; p7 Y3 k
2 Q! i0 g5 S* k- J, w1 }
3 p; ?# E: y9 Z# F0 [; o
3 B! j; w$ H1 X# B# m+ T" p- j. E
DLSS 3带来的另一优势是由于集成了NVIDIA Reflex,因此开启DLSS 3之后,将会带来更低的游戏延迟,对MOBA、大逃杀或FPS类游戏玩家来说,其意义也是非常重大的。( w' T7 |* n3 T' \& u) {* k* y; x2 r; Q
# \1 c2 f" q0 ^; c" e7 o" g& \
6 y$ H: @3 w' C+ v$ Q p( R% @
( M* F1 M' I3 u q3 f: D1080P分辨率DLSS性能测试
3 @; a1 D3 N7 L# ?8 L例行惯例,先测技嘉RTX 4070 MASTER在1080P下的游戏表现,实测这张显卡在开启DLSS 3后,游戏性能直接是RTX 2070 Super的2倍有多!不少游戏直接飙升至200+ FPS以上,面对上代的同门师弟,技嘉RTX 4070 MASTER领先RTX 3070 Ti 70%以上!可以说托DLSS 3的福,游戏性能有了质的飞跃。" l5 c& Q: U* n( k
2 H+ O, n9 x2 Y/ Z( K" V& \, j) j$ m6 p* A: v- @
' ?: U2 o5 z1 `6 p
2K分辨率DLSS性能测试1 D3 e. f) _8 o- N8 R( [
作为一张定位2K高帧的游戏显卡,那不得来一把2K分辨率的游戏测试,实测下来可以说这张显卡确实对得起这个名号。在上面的游戏测试中,技嘉RTX 4070 MASTER仅开启DLSS 2的情况下,游戏帧数仅领先上代30系的两张70级显卡20 FPS左右,而开启DLSS 3后,上代显卡可以说是看不见技嘉RTX 4070 MASTER的车尾灯了,领先幅度来到了惊人的50-60帧以上,如此性能让它稳居2K高刷游戏甜品显卡的宝座。
y5 U! T t/ {: K) \1 _* e; D! J6 Q+ y" N
$ T9 d A1 G7 M, q: K
# e/ _9 r+ X) H9 [0 `
我们也使用技嘉RTX 4070 MASTER在DLSS 2和DLSS 3两种模式下测试了多款游戏,从实测结果来看,DLSS 3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。2 n0 z5 E( D- ]1 h! ~( e/ q
0 i- a+ W) v9 C! B: p
- I; o m1 W4 A! ^6 H {+ t
" {! f5 y/ Y. }- {! U当然不得不说的还是1% Low帧的提升,开启DLSS 3后可以大幅提升1% Low帧,有的玩家可能不懂这其中的意思,换句话说就是有了DLSS 3,你在玩游戏时能够更稳定更丝滑,老黄的DLSS 3确实有点东西,不仅实现了性能翻倍,就连游戏稳定性也能有所提升,确实真香。
; e2 o( Y# v* m2 q' z2 L$ [4 S7 i4K分辨率DLSS性能测试# T; F# a. ?; P( ~
虽然说这是一张定位2K 100+FPS游戏级别的显卡,但技嘉RTX 4070 MASTER仍是具备一定的4K游戏能力,只要把DLSS 3一开,或者是把游戏画质降低一些,游戏流畅度就直接上来了,跑个60+FPS不成问题。, t* U) l! D! e4 ]
% P* l0 b5 C9 T% G7 A% y
+ v2 r9 j# q1 S1 X
( Y4 s) m5 q0 u8 j; O, TRTX VSR测试( @# L% c" N5 m' q/ i# X
RTX VSR测试0 u8 m# n# G! h; M* ~
有些时候你是不是也会有这样的烦恼,那些480P甚至360P的早期视频清晰度不够,看起来不够清楚?现在这种烦恼将不再困扰你。NVIDIA带来了视频版的DLSS 3!正是前不久发布的RTX Video Super Resolution 视频超分辨率技术(RTX VSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。
; s; S$ {1 F0 ]9 Y4 z4 C8 b6 |
/ r* z6 r' r/ M( r$ |) }) v4 R) H6 M6 z: f$ M' D3 D: G
7 b& c+ P7 l( g# N5 w今天我们也测试了这项划时代的RTX VSR技术,在RTX 30系和RTX 40系的NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。2 u+ d* O' u9 P/ X8 M
) ?" Z' f: F; O% t: B9 i
1 L) B( [, T# H5 w, @2 o. g6 ~2 f' F- n, I9 p
实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,并且随着VSR级别的提高,清晰度逐级提升,甚至部分细节已经接近原生1080P了。
8 U$ M& I& b: p) s8 v8 `& ~/ H
# i! m9 d; t( i* Q1 I+ ], x, Y# o, x1 }4 I* x" W- O& ^0 o
$ t/ ~' q/ }4 z% O6 q
在暗部表现同样如此,原视频里地板如同劣质贴图,有VSR加持后每块砖头都清晰可见,且立体感满满,尤其是旁边绿色植被的清晰度更高了一个数量级。除此之外,RTX VSR技术的AI算法似乎还能够通过类似DLSS帧生成的方式计算出物体的远近关系优化景深效果,这一点同样能够使得画面整体观感得到提升。* g& J, M( B0 r2 N- ~" o
/ F# A4 A$ d% }+ [+ H8 |( ]& n1 Q
3 I# Y% M d- n( y. V
9 X, K; I% @8 S0 U' s这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。 c6 S7 S- X1 d5 \
当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放。正式版也随着RTX 4070显卡的解禁上线了,你硬盘里的老视频也能摇身一变成1080P了!; `3 C) t( Q# N. f3 X* B
我们将浏览器中的视频与本地的视频同时进行RTX VSR 4档渲染,从画面上看,右侧本地播放器的效果要弱于左侧浏览器的,浏览器上的4档VSR线条更锐利,画质也更清晰,不过即使是本地播放器的效果也要远强于原生480P,笔者猜测可能是目前本地浏览器的优化还不到位。
: f/ Q0 l7 \$ z5 R' P O
3 H9 w* {5 _- v5 H5 H& a
7 h4 L, h% r( S7 x- s# [! F
6 X: O% N$ ^7 u- m0 R我们也将原生480P与浏览器和本地播放器上的VSR渲染视频进行对比,从视频画面中可以看到,本地播放器上4档VSR渲染过后,文字或线条都相比原生480P有一定提升,至少以前模糊不清的视频可以看了,不过对比浏览器的效果还略有差距,后者的效果已经接近原生1080P了。% N0 `( \0 _5 Y1 S4 k5 g
有用户可能担心功耗的问题,在VSR开启最高档4档的情况下,技嘉RTX 4070 MASTER的功耗仅有24W左右,显卡利用率也远没有网络上传得那么高,在HWINFO64中可以看到显卡全程利用率不过25%。4 a" ^8 K- V1 s: _, b( L0 n
, z4 |; b l4 ^4 ]2 j. P
2 D% y5 y$ ~8 E, U% s1 {! y0 q; t0 |
" y* M3 g4 y i& u% H总的来说,技嘉RTX 4070 MASTER上的RTX VSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!) A" r8 Z+ @+ F2 `3 O* k
创作性能测试
' [+ Z! E$ K) z* D" ^ 创作性能测试9 Q1 L5 c, \: r+ T3 B( ^& y5 p) N+ b# B
理论与游戏上的性能提升已经足够惊艳,在创作生产力上能否再续辉煌?我们选择PugetBench、PCMark 10、UL Procyon等多款常见的测试软件,来测试技嘉RTX 4070 MASTER在日常办公、视频内容生产方面的表现。5 j, N! l1 Z3 e: c
从实测结果中可以看到,PCMark10 Extended测试中,技嘉RTX 4070 MASTER在游戏这个子项目上对比前代的RTX 3070与RTX 3070 Ti有明显的优势,领先幅度高达20%。这也跟上述游戏性能测试结果相符,想象一下,2K高帧的游戏体验,更低的价格就能体验DLSS 3,这难道不香吗?
1 V, m+ M; X5 u& d( q! K7 B. X( G0 ^+ \7 ~! \' L+ }8 S2 q; S* G7 I
8 d" G& z0 k D* z D& g
/ v. l6 p7 C8 K
光看PCMark 10还不够,在达芬奇测试中,这张技嘉RTX 4070 MASTER一度成为最大黑马,反杀了自家老大哥RTX 4070 Ti。当然提到达芬奇测试就不得不提这款显卡支持AV1编解码,这是一项新技术,有了AV1的加持后,技嘉RTX 4070 MASTER的性能相比RTX 3070足足提升了38%,换装新显卡无疑能够大幅提升你的工作效率!9 t4 P6 g6 v- e* T
b; d R! d& V9 Z8 T4 A# g, R. o. o4 q) U) L
- b( ]) ^. N) Z1 C" [再看看专业生产力部分,这里的提升可以用离谱来形容!单是OC渲染器一项,技嘉RTX 4070 MASTER的渲染性能领先RTX 3070 Ti有50%之多,如果对比同代的RTX 3070,差距将拉大到60%!当然在Blender或V-Ray中,它的表现依旧不凡,整体领先幅度依旧达到了50%以上,说人话就是换装这张新显卡,你至少比别人快出一半的渲染时间,效率大幅提升。& f$ n* |7 m6 `; K
NVIDIA编码器测试
! ^) |; D1 R: A$ O. w4 Y; m1 L在上面刚提到的AV1编码,它这不就来了。新的RTX 40系显卡用上了新的NVIDIA编解码器,其支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。# U' R; y/ N" C( n. f! V- d
! K. b5 F. W4 m- g0 q. k1 d9 w- \# \! D2 n" t; B2 g. w2 g" p
. q) T8 h8 b/ w5 V
为此我们也专门进行了测试,利用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。并且此次测试还加入了20系与30系的三张卡,可以更直观的看到启用AV1编码后,效率提升的明显之处。实测同一段素材下,同样使用H.265编码,有编码器的加持下,技嘉RTX 4070 MASTER的效率比RTX 3070快40%以上,如果使用AV1编码,那效率会比H.264快50%。0 \1 ^9 I1 P$ C/ y; _" R) l( z- i
4 D2 y0 {+ y% \ y: a+ u* X! r6 h# k
5 b( V% W9 _$ o2 }) b8 ~9 S
值得一提的是AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上。经过对比,AV1编码的视频在画质上与H.265也没有明显差距,可以说AV1对战H.265是全方位的领先,势必会成为下一个最受欢迎的格式。. I9 x( l) f$ F0 e7 f; [% i
" @6 R. a1 { o" `- M3 I7 R+ ~) |/ c$ _ C0 w- [
. s/ E8 l1 n, Z6 h2 V% ^
AI运算测试与功耗情况+ q6 h0 I: e1 k& @3 r/ P1 F
AI运算能力测试6 s- |8 c# z# ^6 U
AI作为当今备受瞩目的创新,它的出现极大提高了无数工作者的效率,像AI作画、AI生成、AI聊天等产品接踵而至,AI从四面八方渗透进了我们的日常生活。相信已经有不少玩家摩拳擦掌,想要体验AI的强大之处,奈何自己手上的显卡性能不足以支撑AI所需的高强度运算,不如看看技嘉RTX 4070 MASTER,毕竟AI可是老黄的又一独门秘技,换装这个显卡或许会有神秘加成。. Y9 R/ ]& j2 m. c ~& B( J
首先我们对技嘉RTX 4070 MASTER显卡进行AI运算能力测试,在使用达芬奇AI ACCELERATED MAGIC MASK测试时,可以看到它的完成时间为14秒,而前代的RTX 3070则是21秒,别小看这几秒钟的提升,一旦项目复杂起来,换用新显卡将大大提升运算时间,助你早人一步完成AI大作。
7 C9 B" a# ^6 z0 _, H
6 P5 }! ~# n& c. M% z" W, u; w
" v" {; g* v( r3 Q. j! o6 q
: @& ^; L. [5 b& X& {; l4 N: ?$ v" @( H当然技嘉RTX 4070 MASTER的厉害之处不止在这一个软件,在另一款AI应用软件ON1 Resize AI 2023中,使用AI将多张图片提升200%分辨率,此时这款显卡的速度为10秒一张,而上代的RTX 3070和RTX 3070 Ti均为12秒。而面对RTX 4070 Ti,技嘉RTX 4070 MASTER也不逊色多少,仅仅慢了2秒而已。
$ E8 u9 i) J5 }$ s: K
2 k4 N3 y1 G! I( A. e! x% p# I& m% S1 u8 [- d, y4 ^5 c! |0 B
+ N( n& L5 j& C3 h4 Q最后再看看时下火热的AI作画,我们利用NVIDIA提供的描述在Stable Diffusion中生成50张768 x 768的图片,技嘉RTX 4070 MASTER完成时间为2分11秒,而作为对比,两张30系70级的显卡的完成时间均为3分多钟。并且也得益于技嘉RTX 4070 MASTER的12GB大显存,可以有效避免AI作画时可能出现的爆显存问题。, z! r/ _% O1 Z9 [$ M
; V6 _9 O) q* ?( U9 M' K6 c! n! p: P! i- n( l% P, ?2 G
3 w) X+ w& ~' m V0 N9 }0 _0 x% D3 N 功耗与发热
4 z/ Z [. D3 B风之力散热系统的豪华想必大家在上面也见识过了,下面就真刀真枪的试一下这个散热系统的能力有多强。3 ?# j7 N# A5 h: O+ z, ?5 r
0 j; R, t S% X; F
. l3 S7 }4 Q6 i, W$ |: G! p, z4 O/ z
2 I2 h( A+ k* I. x在室温25℃的情况下,使用Furmark单烤15分钟后,技嘉RTX 4070 MASTER的GPU核心运行在2700MHz以上的高频,但此时核心温度仅有53℃,显存更是仅有48℃,任谁看了都直呼"显卡感冒了"。并且此时它的功耗和噪音控制也相当优秀,烤机15分钟,最高功耗仅有215W,上一张做到这个功耗的显卡是RTX 2070 Super,可以说30系显卡在技嘉RTX 4070 MASTER面前完全没有胜算。
: {8 b& N5 f# x* v1 T1 V" T( m
3 \4 {% U% Q. ], q
% }. ^0 \2 _0 d6 L @5 x
8 W0 Z+ ]% X1 C你以为这就完了,TSMC 4N工艺与Ada Lovelace架构将给你带来一点点小小的震撼!利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到技嘉RTX 4070 MASTER整体功耗控制相当出色,在所有测试场景内近乎都是维持在200W左右,用RTX 2070 Super一样的功耗,完成翻倍甚至3倍的性能提升!
0 |0 E/ w+ z* E: J
# R& D0 J, m: O- t5 x" _6 M; b7 E* i; X: \ W0 K
# k2 m9 _' P/ t总的来说,技嘉RTX 4070 MASTER凭借出色的性能表现,极低的功耗完成了对30系显卡甚至20系显卡的降维打击。2 u* n4 L% B2 x1 W+ M
超频能力与评测总结6 ~7 e6 H6 s7 T& P2 Z
超频能力测试
9 E$ t, ~2 F W2 ~0 Q3 [! E; m从上面的GPU-Z中可知,技嘉RTX 4070 MASTER的TDP给到了惊人的350W,显然这是给超频党留了充足的余量。笔者自然是不能放过这个绝佳的机会,这里使用技嘉的GCC软件解锁显卡的电压与温度限制后,超频正式开始!: \0 V w6 U- c$ q
# t0 ~6 G) a+ ]9 T5 a9 |! U2 {$ S( h) C% ~, z0 ?
# c8 T" @; D# X* V0 @/ K$ H
首先当然还是对这张显卡有个基本的性能了解。技嘉RTX 4070 MASTER在默频状态下Time Spy得分18483分,这个成绩已经比不少带OC后缀的RTX 4070还要高了。
) J4 c' e' `5 c
. R: T7 S z) C9 U- {% G6 r: J l& ] R( w
# L% K! F. J0 L9 U5 b) \" x
紧接着我们小超一下,核心先超频155MHz,达到了2750MHz,没想到仅仅超频这一点频率后,Time Spy得分就已经18968分,此时技嘉RTX 4070 MASTER在测试中的核心频率也已经有3000MHz了,相比默频时最高的2850MHz刚好提升了150MHz左右。
9 r* V q& d3 z+ k8 [% e2 ?
3 I2 B7 w$ K' l- B. r6 t7 k+ I8 ^' L+ R+ c4 b* q- ~: W& J
- e* W2 L, v: _+ {, u
继续加码,我最后将技嘉RTX 4070 MASTER的频率定格在核心2800MHz,相比默频2595MHz提升了近205MHz。此时在Time Spy测试中,显卡的核心频率已经上到了3060MHz,在频率上甚至比RTX 4070 Ti还要再强一些,当然频率的提升带来的是性能的增强,测试总分也来到了19149,相比默频的18483分,提升近1000分,能力可见一斑。/ K# y q) F1 Q( f
" z( y. G0 ?1 ~9 O6 p0 {: R4 _, S# n
3 r5 F% C' g/ I' ~7 ^) G' H
% G) k0 I0 ^. G; G- d% A& R/ _ 评测总结4 l4 @. p' T$ Q; w' W
RTX 40系显卡不得不说给玩家带来了巨大的惊喜,全新的Ada Lovelace架构、黑科技DLSS 3、RTX VSR等创新技术的出现让RTX 40系显卡相比前代有着无可比拟的竞争力。这次推出的新成员——RTX 4070更是一如既往的优秀。新显卡有着超常的性能、超低的功耗,超越的技术,当然还有超低的价格,总体性价比更是优于上一代的70/80级产品,可以说是游戏玩家的首选显卡之一。
7 O% w# q+ s0 M$ v. ^& |* y- H* a6 |
% S# `! t3 O K4 N' a& p% @; A: _% w; @/ ]4 z* Q
2 e L T: P2 m; D
高级显卡最不缺的就是颜值,技嘉GeForce RTX 4070 MASTER也不例外。这张显卡除了有硬朗、极客的外观,在小细节上也拿捏住了玩家。显卡搭载了经典 RGB 炫彩光轮三环灯光,各式各样的灯光效果,不仅是视觉上的一场盛宴,更是为显卡颜值增添了独一无二的的设计。这个独具一格的设计也让技嘉GeForce RTX 4070 MASTER成为AORUS铁粉和DIY玩家的心目之选。
( W- h: L* A' [. o z3 E+ x性能方面依旧是这张显卡最值得说道的地方,首先要点名表扬的就是技嘉 GeForce RTX 4070 MASTER的功耗表现,性能飙升的同时,功耗还维持在RTX 2070 Super的水平,可以说遥遥领先于30系显卡。再看看它的性能,实测下来完胜RTX 3070 Ti,甚至对比RTX 3080都有不小的优势。更不要说它还有DLSS 3等黑科技的加持,2K 100FPS+光追流畅游戏体验不在话下,总的来说它就是万元电竞主机的首选。
, a8 x' W- g; D/ J& {2 F% S: H( `* b( f; @
9 b+ M1 m# S2 J# j
- a V8 {. o2 S6 l% ?6 Z
最后再聊聊技嘉 GeForce RTX 4070 MASTER的售价,作为一款定位中端的显卡,技嘉不仅做出了高端的质感,更带来了极致的性能。5699元的售价比起自家的老大哥们更具性价比。目前技嘉GeForce RTX 4070 MASTER已经上市开卖,如果你想购买一款性能强劲、颜值在线、温控到位的显卡,那么技嘉GeForce RTX 4070 MASTER就是你的不二之选。
6 P& T! u1 x( I Ada Lovelace架构讲解
2 h7 ?1 R) I% l$ C M/ u! NTuring、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是"电学中的牛顿"——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称"数字女王"的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。* a g4 t: `. V ?
4 d, S& H- K% l$ X# g
1 J0 {' ?& _- @ ?+ Q/ Q
" t( M( p) A+ {& I: t3 k7 A8 K从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
, g' N! B: k! Q9 Z 全新的SM流式多处理器& k* ^$ R' v, G: |
1 \7 U% c @& D% q3 J
3 Q6 N% Z7 J1 O; K6 L7 l# M
4 i1 S4 J$ t0 ?1 h) b! `) }2 WAda Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
( c* S" X# Z$ i5 Z/ P, C/ W) S+ ~
/ O& m k' a C2 F8 j% C" y
) j% V3 f9 q' M9 h7 Z- {+ o' f# _) t& P8 s2 N
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
& A4 G- |' G: p% ~% f' X再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4070拥有46个SM,5888个CUDA核心,那你也就应该明白它的着色器能力进一步加强,跟上一代的RTX 3070相比,虽然是同样的CUDA核心,但得益于新架构的优势,完全可以说是遥遥领先。/ f8 q4 B# j- a" v" f
7 o3 {+ g" S. b% E: j
' d# f4 S r4 m x6 a1 Q
8 L. a, v3 ^; z8 ~* R另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行了重新的设计,使得RTX 4070配备了36MB二级缓存,相比RTX 3070可以说是质的飞跃,足足提升了9倍之多。8 ?& `( u5 E8 i" U! [7 e% N
技术讲解:Ada Lovelace架构解析0 B- C5 C* H0 s* A. J1 z3 E
技术讲解:第三代RTX Cores与第四代Tensor Cores
0 R, m/ L1 s3 D% `# L7 I: N
8 D' K9 \, f9 @0 H
. x5 O9 I( U0 [) e9 G: p4 a
4 K4 L0 E3 m' |8 W' ]" ]/ ~3 y. R. s以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RTX Cores与第四代 Tensor Cores身上。
, N( s1 g. t, z0 a; \- ~第三代 RTX Cores. j* H& G2 R% z8 Q- f3 u
$ J$ C/ f. i/ r$ ^3 K5 w3 ?; }' j; B! K1 e7 ?
2 Y; x9 z# X: g# |+ h" D+ C
RTX Cores用于光线追踪加速,第三代 RTX Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。5 s, e% ?4 X! G+ l" @- P+ S) {5 h4 E
}7 E2 d" z7 k* x. t8 H( m& J9 B( }
# ^1 i% F7 q7 j+ ~; m! M* B& M. J# Z& r' e. [
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
, ?; T R! y+ [( r, Y P5 K所以在第三代 RTX Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
) r8 a, { f, g& D) h- Y* ?; x# A1 o* ^3 m0 V0 [5 m3 Z
7 Y2 y% I b0 N" r/ J' g% Y
$ g9 i$ h5 l: @, c在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带来不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
4 e4 r! P4 a) {0 K. e( C' V! V, F C s" n7 v0 P
( `5 U M: m; [: f4 d
3 [0 n$ [" N3 G4 B. T) F! {+ K而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
& c" i1 o4 U7 V, q( _/ Z$ s% W三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告知命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。9 m8 n' c6 Z* c+ b* t3 @& h; x
Displaced Micro-Meshes Engine
9 K8 B7 L; _# m6 T2 Q9 D/ @" ]8 L4 P/ s. c. E4 d5 W2 [4 e
( }$ t: e4 B$ K; j3 G
3 J- n; M$ ~" K" U8 X. F
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTX Cores更低,效率也更高。' ?4 P' x* R- ^ n! K, f
4 C+ F5 @0 _; B. M" |' n' @
% N# g9 E% o$ f+ x6 E3 z# i& z6 u. W' I& \ q
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
, |0 H! b7 ]! B) V& [% o% C5 W
) q$ u+ m6 a5 o% B V- |5 f
7 B) `% S* K r E/ s2 D& X: j; W
: j! x( N* p4 x5 g! N7 p7 Y5 F同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RTX Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
+ _+ D% ]3 x& x* s! d3 {第四代 Tensor Cores
% ^# m% @' j$ D, A, |5 W4 n, _9 U. m% }1 w! P
: m5 s) H1 v" m5 k- E# \4 K" `, P8 Z& c. N
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops 的张量处理性能,超过上一代的5倍。' f4 [! q& P+ s5 L/ K# w6 M5 m" l
技术讲解:第三代RTX Cores与第四代Tensor Cores5 P% C7 @5 c7 H( v2 c
技术讲解:DLSS 30 M4 ^6 {4 L5 w+ v7 Q) a
或者说第四代Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS 3技术。0 i- o! o/ X6 N$ J. b
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。3 M' {( {' N, Y& d* u2 [
1 V. F( b& o! s" {3 Y
1 ?* Y# g8 X9 I0 F) _* M* f
/ b$ S1 t: S" S( b* r在DLSS 3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
( }7 Y* c/ Z# X* ?. v
( Z) l/ P; S0 A8 X" y+ D1 t' S/ B- Z$ y' G& I( I
* V$ E0 q$ d& h" j, j想实现DLSS帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助 GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。6 k2 g) H: ~% E' w; {
2 @2 V9 n9 E. h! R
/ f2 V7 G' K0 G; R W5 p
2 l0 y4 T0 ^; V从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。 V; T: U- H7 E9 w$ I
; V6 f! I3 Y) q2 u! d
" s e. K p7 z0 ~5 G" d6 s) d4 `$ g8 T
! U+ O* y) k g' b另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。1 B+ m7 A) I+ S/ ~5 y- K( L
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
4 I- C( g! H% l8 `) y阅读小亮点:NVIDIA Reflex
( T$ M* Z( k* E* H' U: MNVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
# Q. K7 d- H* s& f' s$ Q) V6 ~, t& o* Q0 G
2 ]1 H8 e8 t) b
/ ]9 X$ F: x& u! d" v6 Q
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
( F5 E: q9 \4 N1 ]4 m* ~7 O9 N8 |, V" j1 S- X8 e: K
, t5 n/ A- m* N# V
* {1 { F/ w5 \% P* v
当GeForce RTX 40系列显卡和NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。+ y" S0 @% }, t+ O7 d
8 q# H$ D% }& q* _0 R; X
8 c n& P4 O- g/ A
( ]! e; |0 Z% H& Q; S7 P) M( t& D
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。2 y& ]# p% e {$ ^& E1 Q8 H% i
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。! ^; G9 a: l, Z+ k% p3 h
技术讲解:DLSS 3; k. N5 c3 D2 X
技术讲解:NVIDIA编码器
# b [; R: \* }: N! m
' G8 @; M! p; `$ R/ m2 Q& e- Q
+ c& y7 [% ]7 |2 P5 y; c1 \$ x1 a: H, z# k9 a
GeForce RTX 40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。8 J5 X5 ?6 W: g6 s8 O6 {' \; S% x1 i. g
2 a* F2 k* Y* Q1 f0 q5 W
9 z1 c0 P) q/ C( | O+ H
; _' h1 l9 u( p$ q9 @2 a8 v1 S* y% n
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及Adobe Premiere Pro较为流行的Voukoder插件均支持,且均可通过编码预设使用编码器,这样我们等待视频导出的时间缩短将近一半。9 F) i7 y. T' d2 H% |0 `* p
, o6 |# r8 r/ p% X k# Q3 m' `
) M" q! l0 I4 g5 ~+ |$ f
' X2 M; W6 _$ c" V7 y; C不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。/ P2 r* y4 p4 ~+ a
+ L, Q6 N; A0 h% |; O; x3 ]
9 h: ~0 G0 {; r1 }) e, x, @" H, F
4 o3 R7 o7 N$ p+ B* T: G3 B包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|