|
|
看点:TensorRT与Turing架构协同配合,能提供高达CPU服务器45倍的吞吐量。$ [' R! R. @ C8 p5 L
$ \5 G' A/ @/ |/ T# W ]. C$ }
% d9 a7 M' K) r3 ?
6 q4 L/ |% D* ]9 J# a; {; J" n5 v
每天,数以万计的语音助手、翻译、推荐、视频管理、自动驾驶等各类新兴服务,都在以超快速度完成深度学习推理。1 D. O9 {$ L. w# k& b, G# r) p
1 u3 }! r' r- W' |
用户会看重AI产品的实时性、高准确度,而对于开发者来说,要考虑到的因素更多,不仅要满足最终用户的需求,还要考虑成本、能效等因素,因而,能满足可编程性、低延迟、高准确度、高吞吐量、易部署的成套AI推理软硬件组合成为开发者的心头好。
: q% i; P* G2 U1 L1 R, O5 z! }8 K而配备NVIDIA TensorRT超大规模推理平台的GPU可以说是学术界和产业界最受欢迎的AI推理组合之一,它们可以带来速度、准确度和快速响应能力的成倍提升。) [2 j: E+ \& W) ?
去年NVIDIA最新发布的Tesla T4 GPU,因其专为推理而生的超高效率、超低功耗,能为开发者节省大笔预算,已成为业界首选AI推理神器。
# Y- o2 n- V8 | p6 Z: j* `$ ^本期的智能内参,我们对《NVIDIA AI推理平台》白皮书进行解读,看NVIDIA超大规模推理平台如何协同顶尖AI推理加速器Tesla T4 GPU,为深度学习推理带来吞吐量、速度等性能的倍增,并降低数据中心运营商的开发成本。如果想查阅此白皮书《NVIDIA AI 推理平台》,可直接点击左下方的“阅读原文”下载。
) o" }9 N. X2 ?+ x; R
9 V- v# w, j) e0 ]$ s9 PNVIDIA GPU推理的应用价值5 @' ]* R& ~3 Q: u0 P
* o4 \6 x" \% T$ U# k& ~$ C
& @ u8 M* j; ?3 J) H9 u* X, v) RNVIDIA AI推理平台就像一个隐形的推理助手,正通过互联网巨头的超大规模数据中心,为人们带来各种新鲜且高效的AI体验。
0 ]0 K( @. y+ H/ O' G
& X# V, p' A: o0 H* n7 m相比传统的CPU服务器,GPU产品推理组合不仅能提升推理性能,还能更节省成本。2 E5 F, _2 |& S+ V% m$ C* o0 V' h
比如京东的视频审核就使用NVIDIA AI平台,将服务器数量减少了83%。* ^. i9 c6 j5 z# s
每天由第三方商家上传到京东POP平台的视频数据不计其数,京东必须确保上传的信息安全无害。
3 J9 X0 d1 Y- ~. z% |以前,要审核1000路的视频流,京东必须在云端部署1000枚CPU,而使用NVIDIA AI推理平台后,吞吐量提升20倍,速度比CPU快40倍,1台配备4个Tesla P40的服务器能代替超过约50台CPU服务器。
" S- m( n5 c1 h w, G
; G. b6 H) f5 ^8 l% UT4作为NVIDIA专为加速AI推理打造的GPU,在推理性能和能效比上一代产品P4 更胜一筹。
' j0 N1 X7 H" T. v7 D如图,左边是200台占用四个机架的CPU服务器,支持语音、NLP和视频应用,功耗达60千瓦。而相同的吞吐量和功能,一台搭载16块T4 GPU的服务器就足矣,不仅如此,这台服务器还将功耗降为原来的1/30。& l% ?; \, l3 }) V r
5 h: t- J* L9 o" ~* Y
! w& e0 G9 [0 @, q. S$ s基于Turing架构的Tesla T4 GPU
7 c# A- N( Y* c1 r0 F
3 F; d+ p4 B# B: Q7 u8 o- d' F; X$ S4 u& I
NVIDIA Tesla T4 GPU是全球顶尖的通用加速器,适用于所有AI推理工作负载,不仅有小巧的外形规格和仅70瓦的超低功耗,而且效率比前一代Tesla P4超出两倍以上。# N% A# O8 @# ^! B9 \# Y" r! q

. |5 o7 g: J% _+ S. x4 M它采用的Turing架构,除了继承Volta架构为CUDA平台引入的增强功能外,还新增独立线程调度、统一内存寻址等许多适合推理的特性。
' q+ b4 p' }4 y8 K. O9 DTuring GPU能提供比历代GPU更出色的推理性能、通用性和高效率,这主要归功于如下几个创新特性:8 n6 f; c5 V7 Z
1、新型流式多元处理器(SM): p |: ^+ g; r7 v* k; @8 d. j
* ]: _8 x7 h* e1 U: m
新型SM具有Turing Tensor核心,基于Volta GV100架构上经过重大改进的SM而构建。
" `$ e+ e) l4 p8 `+ v1 u! c它能像Volta Tensor核心一样,可提供FP16和FP32混合精度矩阵数学,还新增了INT8和INT4精度模式。4 o3 B1 v1 \# M8 a% f6 b
通过实现线程间细粒度同步与合作等功能,Turing SM使得GPU的性能和能效均远高于上一代Pascal GPU,同时简化了编程。 Z! w) F r9 v
2、包含实验特性,首用GDDR6- Z' ^% A1 I4 C! s
+ N8 L/ C) G1 o* b$ r
Turing是首款采用GDDR6显存的GPU架构,最高可提供320GB/s的显存带宽,其存储器接口电路也经过全面重新设计。' v5 V# H( x D$ W+ ]' a8 ]; r4 s+ [
相比此前Pascal GPU使用的GDDR5X。Turing的GDDR6将速度提升40%,能效提升20%。) }* r( G0 z- }
3、专用硬件转码引擎
, Q6 e8 i% I4 C1 A4 F# v* A2 R9 i2 |0 O% B5 R* N1 L" g
视频解码正呈现爆炸式增长,在内容推荐、广告植入分析、无人车感知等领域都获得大规模应用。/ B3 G7 u9 @4 v( P8 B* z
T4凭借专业的硬件转码引擎,将解码能力提升至上代GPU的两倍,可以解码多达38路全高清视频流,而且能在不损失视频画质的前提下实现快速编码或最低比特率编码。
, @ `" p8 u3 `( }/ h) a$ v4 q6 X, _/ w9 }% U6 y9 f5 A* `
超大规模推理平台TensorRT
! i+ j1 ? A8 z2 G' M# U* X: \; ]' _0 I7 C. g
4 t' O+ _, [, K2 [6 Q; o仅有强大硬件还不够,要搭配高适配度的软件工具,才能最大化硬件算力的利用率,为开发者带来更完整和优化的开发体验。1 m, q1 B8 k$ \& K8 R5 h4 _% \( S
NVIDIA加速推理的优势也正是在软硬件的结合上凸显出来,既有专为深度学习定制的处理器,又具备软件可编程特质,还能加速TensorFlow、PyTorch、MXNet等各种主流深度学习框架,为全球开发者生态系统提供支持。
' _1 O! j1 g" P$ s面向深度学习推理,NVIDIA提供了一套完整的推理套餐——TensorRT超大规模推理平台。# d5 d# M3 ^& m& h( d, Z0 ^ z
TensorRT包含T4推理加速器、TensorRT5高性能深度学习推理优化器和运行时、TensorRT推理服务三部分,支持深度学习推理应用程序的快速部署。
; b* ~8 d8 c& ]2 Q) ?( u( V其中,TensorRT5将能够优化并精确校准低精度网络模型的准确度,最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台。: d) ?/ a% S8 L7 F: r
TensorRT推理服务是NVIDIA GPU Cloud免费提供的即用型容器,能提高GPU利用率,降低成本,还能简化向GPU加速推理框架的转换过程,更加节省时间。
4 N C9 v- u1 a* x1 @0 z4 X配备TensorRT的GPU,推理性能最高可达CPU的50倍。
7 k9 A3 q3 H2 U; d' O这得益于TensorRT对网络结构的重构与优化。在精度方面,TensorRT提供INT8和FP16优化,通过降精度推理,在显著减少应用程序的同时保持高准确度,满足许多实时服务的需求。* \" `7 u3 r4 i# x0 t @9 H: L
" L/ q8 O7 i- J2 u& u1 [. a$ L
另外,TensorRT还通过融合内核的节点,优化GPU显存和带宽的使用,并以更大限度减少显存占用,以高效方式重复利用张量内存。
5 x. a0 P+ O! g$ H7 kTensorRT和TensorFlow现已紧密集成,Matlab也已通过GPU编码器实现与TensorRT的集成,能协助工程师和科学家在使用MATLAB时为Jetson、NVIDIA DRIVE和Tesla平台自动生成高性能推理引擎。: c9 V0 \2 M, w; M0 z% F. C# ]( a, J; _
TensorRT和Turing架构两相结合,能提供高达CPU服务器45倍的吞吐量。, j* R" X7 d; T) ]. g" Q
智东西认为,深度学习推理需要强大的计算平台,来满足云端与终端日益增长的AI处理需求。而一款强大的计算平台不仅需要强大的芯片,还需要完整的生态系统。
6 w: ^1 l v+ g4 l! B4 e7 Q9 L通过软硬件协同作用,NVIDIA TensorRT能在带来高吞吐量和高能效的同时,实现推理神经网络的快速优化、验证和部署,既能降低开发门槛,又能节省服务器成本,使得工程师和科学家更好地专注于深度学习研究,推动各行业智能化升级。
' B' c4 f! f$ |' V; _6 q- p如需查阅此白皮书《NVIDIA AI 推理平台》,可直接点击左下方的“阅读原文”下载。: g% u9 u/ G3 g8 z; s
8 P" c, Y3 |: H8 P9 _% F2 z1 X/ r, V* K
本账号系网易新闻·网易号“各有态度”签约帐号 8 ?2 }2 M8 U) j H* k4 E
; Q6 A; E6 ~, m' h+ X! M' b$ j. |5 J4 g2 v
5 k5 F- f; g5 ]" Z+ u5 E
来源:http://mp.weixin.qq.com/s?src=11×tamp=1563112804&ver=1728&signature=HZaQD1-Iw7*AR*o3fdBcyw5VDHbMCpxSKJGqaQMMpZHF73he5pDyE70f0-5qVZIeVnwkYYOroperpRzyE8aoDyBG*2cTDr6rR7tTsX1iioPy-j-XZG0nay6b0wl3wEkt&new=11 k& @7 l4 a5 l# J
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|