|
# U" f0 U, b5 P% y! I, o- t% [
; ^, \2 a) F" P
* @' ]0 n1 [2 n1 o9 {
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
& U5 Z8 W7 J q2 T- w7 p8 p: o5 _1 C4 P2 n1 w9 w
5 a' w G* o5 t# C& \$ m
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
- L6 n7 t/ f4 A9 v, N2 y* U! r. {6 X; u8 e. u2 c
0 l8 ]' A/ P# \$ y. x* |今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
- }0 I5 k/ w7 z
: u2 y/ R9 o+ \1 q. V& C8 Q' D3 s: l
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!& h8 U, k, }/ q( e2 r6 K
0 R9 @. r$ r) \% S2 I! Q* R" L8 c+ @ H2 X4 C
# |( w+ n! A. o0 t
% ?- o3 a% e, P3 C4 U) v0 w- D- E1 W' w2 J! a$ e
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。& d% [6 F6 x- G) k- V( Q/ _' s" \+ e
( |8 ^* S. L2 K" b1 A Y, E/ w3 \! p$ j$ b# |
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。8 ]% j" Y" a( z8 T' }6 ?- [) m* A$ o
7 T* d5 M( P, @; i; U5 t# z6 A
+ A2 _/ i& n! J! A9 {加码AI计算,Arm发布Ethos系列NPU IP) @' \1 B5 g$ K" E3 h/ x* l4 T
$ L/ \9 \- `4 c v. [3 p. ^2 r0 b
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
2 l' H% l- Q% R8 o1 T/ n4 r, G! v( E2 u
5 u: f( T! o- y( |' u而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
& E+ z! [) x' W1 C
. ~. R/ Y- _" L; @0 y; v
7 W8 h) t8 V' ^6 J$ Z" G但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。) D# S7 h* R! g+ o* Y( ~ U
2 s) H! L4 L6 K- l# S; T3 u
! T) g4 }5 X' Q+ a在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
2 O, ?/ y K. B( }- M7 C. x2 |9 _8 d' c% B
l0 k3 A" m" W6 }
, i/ N% g, w4 R1 z( ~" M* a3 V& y" {' R; W3 s
2 a. l* G% t3 V
) a+ i2 G3 o2 p j
9 M, B8 | Q8 m9 Q' e( U+ N
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。& O* _5 \. ~$ k, z, w( F3 ?) J# A2 e
" ^4 H; k$ C+ ~3 `# x9 f) ^. E1 v! @9 w+ ?
9 ?- h5 S4 ^$ g' l$ U

9 z# T$ @2 G2 ~4 S% U
# ]; W9 l) G4 k# Y% R
1 r, M0 U( g' m4 BEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?" O$ {% @, Q9 \2 a
5 \0 i- M N; j9 w2 |# m
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
8 _: B* e- O% c5 v# t" {
9 p% t/ S. n% {7 R1 } X0 R
" \3 N; j0 E p2 s1 Q3 w0 w
0 H. ]- ~3 Y3 E6 I2 U在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。- H5 n/ v& S3 |" G1 K: [2 u
$ b: P* X# @, O& i! c4 f; }) y( d8 w' r3 H- V2 M& O, O* }. H
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。4 }) N0 S: n7 _! i+ B
5 b; m: e$ _) D+ v! Q0 V3 M) W
7 T s6 [& V5 a6 L& [$ ~/ j从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
2 j5 Y; f6 Y/ Z1 d* E
; A/ p9 \ T$ V @/ o9 i, R+ ?' Z8 |* |) p- Q, V. f, ~& l$ W U
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。5 d' }% [' S& {$ Y
% Z5 k8 A. d/ h3 s* O$ k
3 q, T$ }% j' b) ]0 yArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
5 R- ~ O+ m1 E& D$ [$ u6 z3 W! P# F* C: n! ~% U0 w9 j2 }3 o
9 m/ E/ e. @7 [. D另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。6 }% V* D- P- p8 P3 o9 ?+ \/ d
7 l9 {* K3 [4 m3 E7 }5 R
+ s. y0 c; C8 p9 @0 h. p1 C: sArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。5 {9 W% `0 i% E7 _% }
2 i1 ]# a0 i x
0 A0 a$ `, D' z1 ?, [/ b据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。" j; b2 l' i3 M9 g9 X% Y `* I* i
7 F1 P4 T* A" A
6 u: V3 C% [ i* t$ p开源的AI开发框架Arm NN! M; V9 d+ G E9 O- B) I
# ^+ c' X! y0 K' X/ {! H; W
, M6 p" j4 Q# v3 N我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。# {5 g: a* b# f" S3 r' |; z9 q
. ~4 [, w& h% ^3 }4 e6 w* b8 b5 s, H8 V; `7 i& b" }. h
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。) f0 U" j; x5 v7 h' o0 j
8 W& D2 y/ n7 N; z8 o/ N- ~2 G% C; I! G
1 n w2 C7 s7 n# { U
: a* V* R. | e/ F
$ ]8 D& j7 b" x5 [ R
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。$ n8 ? A& E; y E! ]( K
- H. C5 @1 U' X# }9 n+ ]
8 T& R% V6 R/ J* G2 a1 n# SArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
1 r; X) W/ |2 Z( K
) f; P7 P/ [* _8 M/ ?9 j7 Q
" C/ {% k% L- o- Y7 h2 \* I v 1 M% w) B0 Y7 p5 B
( o, s3 a" ]0 R- {2 C7 H- t2 Z" P- i* a0 T" O
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。% n# Q9 ~+ D3 r
/ R3 B6 ~4 k* g' Q* b
. G! p% P& g6 V- G% q& N: KMali G57 GPU:为主流市场带来智能与沉浸式体验
: g2 @" ?& A4 h. `8 v! _7 q9 p1 p$ v d% n* N- B3 K8 O
; r, {0 W- I7 |) q# N' F8 P( G
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
) l7 X$ m& e9 R& ]2 B, p. C- ^: ]6 f. }0 f8 z
( Z6 {( z* k/ f' o R$ `. Y$ _ : Q; U8 C( Q2 T: E, e+ c: l3 D6 k
& T" d, {6 d$ N' @! }
5 Z2 c* j" O( O( o2 s- G
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
4 k; H% k$ l* U( ], G+ {( ]$ D; {" D6 ]0 Y1 o3 A
) N% b3 I C+ o1 ?2 ] F5 F
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。4 G5 p; f6 ~3 Q8 e# i, A
T6 b A; S/ S
# {/ k7 z- ?: _
Mali-D37:Arm单位面积效率最高的DPU
4 p7 Y# y* J2 [$ y) c1 |3 A/ d) I2 F+ S9 g* M$ s8 Z9 \" h
3 S. p+ p) I9 ?% H7 G
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
. r% F, u, v7 j# [* Q( N$ Y D) A( o: \6 w* M2 Q
. g7 N+ }- c& U! G/ ~ : e% s( B+ }5 {
- \9 @- |2 S, I) F. W0 M; @$ ^- f, e/ A/ c. I% C: F
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。1 z2 b7 R! K( x, t j& y
9 Z# S. y+ U# p: e' i+ w
, t) b2 M* g0 T8 H. q0 ]
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
4 e4 ?3 U4 m! N. Q9 ?
# @9 P2 w5 \4 q2 r- X) ~8 N
8 c y7 U( b3 F6 eArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
, @' u5 d, P2 V7 u/ x P* K
4 v4 k, q4 l$ r+ c- s6 E) d8 W0 U. U+ F6 S. I+ b
Arm的通用型NPU能否获得成功?* N1 j8 H+ r- i8 X
1 O$ X4 Q- S1 S- a, N+ a
" Q; l- W6 i q
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
- x+ ~1 ]% G' f, Y7 H4 P K7 H2 w9 G8 l6 O3 V
( Z, j5 h! T4 A8 a
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
8 i) n8 R( n' J6 t( g
+ A- t3 ?9 s" }% ~( b6 b6 q% `' A' g3 b7 Y
7 K8 U# K3 C9 E' a2 t4 Y# K
4 Q, M; ]# v$ Q# l9 X7 e
6 Z" @9 q% p+ Z; @5 h" s: ^在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。% I1 X3 T0 }# r: O9 ]! O5 t$ W1 w
! U2 {% m) L. z# v% J
# c* P. ]$ E4 A; Z另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。2 e' F9 N. d! f- V
4 u; ?+ u0 F' w3 m& Y# i7 x
6 X. n( ]$ t' @- X, f另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
( X @/ k0 y* C
0 m, a* M& y& o0 o2 O7 a
& |, g# Z( r" @+ L最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。' G4 r6 \& Q f5 }! e+ x5 J1 a3 ~/ t
: Y2 A7 w- O, V, G
2 `- P1 c* f% }+ j0 a
- H( d/ l) G9 @7 r3 z* b v0 R+ u, \* N- I. R' B0 n) p* c$ D
7 h' X- `& p- l值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。4 o6 m9 R6 N$ T* l
+ F6 w8 A3 S9 x9 p6 v, C- _- x0 |" p
编辑:芯智讯-浪客剑5 v8 W: o& T. u. y% M( L. G. l
往期精彩文章
0 Q! d7 l; b6 M2 N) `VR市场迎来第二春:5G+VR云化将成最大推力!
; A% D3 E0 L7 ^' B3 V
& y* o$ ] B6 F' D& @+ b2019生物识别论坛成功落幕:这十大看点不容错过!7 o; b. a/ J% P2 i
阿里平头哥正式开源RISC-V架构MCU芯片平台, u/ T) a) X: j( `! Y
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
' [$ Q/ v- ?# ^2 O+ T F& r; x2 W. F2 T* f3 R4 s. ~5 a& W
展锐再推4G功能机芯片虎贲T117,意义何在?
1 ~2 G0 k9 V, \& ~' h' A1 p! I4 t. }; Z
历史首次!华为海思4G芯片Balong 711对外销售!: t. r- D1 {0 d ?4 w
1 a% ~ Q* c+ Q! K r
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!/ m* k7 b) k8 W- E2 B2 l; T
: t1 t! X$ A$ b% y# |1 p巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
a2 G/ Z8 C& D. Z) O5 U6 O; o, d. m$ u) k+ P3 {6 T3 ]0 O" L
可穿戴巨头Fitbit宣布撤出中国!; \7 j$ {6 X: x% c' C# _4 k
7 m: X4 K, r2 s; Q0 c收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询. [! D4 o9 C) n" G0 b) N, U. P1 O
4 u( n' z. Y/ |3 r禁令之下,安防巨头海康与大华的应对之策!7 P9 I% e9 i1 x/ |1 b& U
# \) C( C- @% {$ y' V/ `+ i9 U' C3 p
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
$ P2 n- M: J0 \行业交流、合作请加微信:icsmart015 A, l9 m6 V# U; N7 ?" }
芯智讯官方交流群:221807116 2 `* X( Z" Q: @% U! V
3 G$ u& ?9 B! {: K s/ k: S* K来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
, O3 d* X! k! Y- A& c8 f! _$ D免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|