|
: ^' A0 ^7 w1 A% a
& k( u) g$ ?5 U' a N) w5 S2 n$ @
$ x, J4 n- H& I* S0 K3 r10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。# h/ W* F" O+ c8 n
9 d# c9 d0 g, r3 h. g9 r, a- M
8 b9 }3 I' o: F$ ~ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
; S; D5 V! [# E& Y$ h, Z
' ~ V+ R3 J3 v' M# f" J+ |+ A6 V( d! Z/ l9 y9 \1 o
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!+ ^8 {9 _; Z2 |5 ^
0 ?. L0 r" s m( X
1 h" q/ V* f j4 b10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!% w2 h% g7 s, i
- E9 L% H2 R, P& V" m7 t
/ S" j; H/ b5 R& H- ^
# i# `) O3 f, y3 l( Z: n
2 i$ C3 K$ r4 \, V6 }0 G( u7 j3 `' F) T+ {
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。" M0 J& K5 w% O) C' V& ?) _ c
: x7 Y; E9 n9 @' @! ]
& E) x0 ?6 p/ D/ }" l7 x吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
4 B, B* H0 r3 N) m' z3 w% @: S e5 W7 o- z
' w r, ^" E/ f
加码AI计算,Arm发布Ethos系列NPU IP
' a! x8 w h9 \! Y( Q0 g' q4 S1 {' m# o# _, c( V3 {
2 f% B$ \& V3 G) ^4 u- k( E根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
K# X- h' e) D7 x+ [8 P' R' I8 L2 s7 W+ l1 v. ~8 j
1 L5 a7 u. I1 t而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
; r1 j1 ]5 `% o: {2 L9 L5 Q) I: _# |2 R' m4 ?+ s% j& {3 u" l; B
* x' x; k* _2 L6 L# Y
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。4 M) F" `$ B' g# r! d& K
$ a8 ?$ m$ p% M: v6 H0 |" u- y
- P0 I+ R" N; ]" _0 ?在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
" `' P, N! t2 h; p
) A$ k, j' ?. G7 S4 S% @0 K6 h1 N: l$ A; n- g
; e: D2 ?5 X* i6 {
. z1 o: k1 j2 F% L% f& O! l; N) i) i; w! r1 m
: y. Q& |4 H' r1 W2 P
$ |1 [( l0 W: u/ N k今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
6 Z" V" P( y5 t8 ?# ~4 i, M% R
8 }8 A8 e8 ?6 @3 I
' E+ s0 u, a+ U
2 S7 _0 _( L2 M
8 B5 f% h( O8 `1 ?
9 m% h4 U: H& ^4 r: s+ }! m. F. i2 U6 O, \& r, k
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?; I- r3 n$ H% `
& a O% o8 ?/ B, a/ P
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。! t* l7 W2 S# M% I n
1 E# T% Q! W9 @' C5 u& g$ H
! f* O' }# h, Y% l' U- V& D$ S% A( u# c7 y/ f7 k
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。: @5 w0 T5 q% m# j
" K8 _. G( @2 L Q- `& c6 @
9 H2 ? b( ]( \2 t% Y在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。, Z1 g- M1 E" k( \, W) T( r Z
" @! f, B. h# K
, [# I% y0 c1 A ?( }从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。9 ~' }! T" L+ B; J4 c% p
, t) P( U3 \; o2 o7 S
8 W+ S7 L! W/ }需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。9 d6 z( }% ?% m9 u( G A' u, @4 c
4 X6 J& _0 Q4 d+ O9 T4 Z" f! y
6 b' j8 f6 @) B, J# S7 f# @. EArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。6 `+ _3 o( n" y; ?
8 g- V4 p$ \9 l9 p6 T1 A
s/ g# r8 ^2 j9 d9 f$ E n另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。, K. p; E$ B& `
2 z) q3 Z7 w/ U5 C; a0 W% V- j E6 c
9 M2 T) }, \" Q- Q, @* V$ ]Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
9 J& v' b2 L7 @0 i" b( n/ Q
1 M4 P8 M, x( `: Q0 f* Q
6 Z) |% }7 Y O' m% q据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
: W$ u3 o6 [! K0 Y, F
5 H( R# F! M' o1 \( h+ h* R/ b' ]1 X5 T
开源的AI开发框架Arm NN0 K H1 J" N8 ~- @" I( m
3 T9 T5 i1 g. r; ^) p" U
2 Y, j/ C& J* {. D8 S: w+ G* ~/ Z& u
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
; E9 l) o, @) `) [* ~8 |7 n% c1 [* e" p/ s, B6 l( t
8 L3 R2 C( b: J而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
7 o N; X8 `' c, G+ _1 K% F- `& G) E# B$ u- C
* h) H& v T0 `) D$ Z' t' @7 G , Z# j8 I$ {' {' p& }7 x6 H
7 x+ H% p2 o7 g' x9 {
1 k; _" F& f2 M/ s; n据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。% a/ v! F' ~1 k( `* F6 `; y; T
; g/ L8 R+ X* [6 D- }3 @/ f
7 J ~( T) [ U! Y$ gArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
# c( |7 E1 c- {" q
; L* }: A3 w) R; Y% P% w' x: R: j3 N- P) |, ?% A- o

/ o! i& C0 D% n( k
9 @* E; T! p. B" b# ?1 o, Y3 b
, M6 p8 @. t2 r. A+ ^此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
3 y- i2 H" r) R$ |& s. \: H2 x) j u" ` U* x9 R
! n2 \. P; R" y( g7 P, jMali G57 GPU:为主流市场带来智能与沉浸式体验
3 y& ?8 }& O" f; X" G1 L. c5 V, u& F3 ]/ E8 [
: P- A; q( B. \9 l4 U2 t今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)' J% Z" c# x& a" G
7 z7 m' X5 L8 D* G5 m( L. N# \9 n* m- m+ a9 T/ a
7 \. s8 m+ e, O- h4 ]/ W$ f
) z4 d0 b9 g' j4 C' u' E
1 }$ s; ]; [7 [5 _, U+ ?3 N! j, d据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。; g1 H/ a: r! Q; o6 _# k
2 |$ L4 E( z. o& Q
; L2 |" K0 U1 v! b9 V( b8 x7 KArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
0 O! M9 ^% [$ j( K; b9 w: j4 b( z
S6 i3 j7 e) [ e. x5 y# PMali-D37:Arm单位面积效率最高的DPU2 b1 s; x7 Y) C7 g
; |) \5 o9 J8 Y6 t; w8 N
6 m- E! w- T! |# K* V: R% f# q5 v
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。- f" g {1 z' `( C' @; }
" j* ?7 z/ P- x( V8 u+ M- a1 G. A$ @, R' s& B0 O4 i

* N6 P3 r0 Z- x' O a7 y5 o H4 S% \1 o' b9 g& V9 x" P: l J
; K+ Q/ {& o- f2 }6 t据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。5 r% n' j+ z. X u
4 l; K% t7 Q6 W$ w
& T6 R0 N+ V" R# {% {* U在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。# k% p, C1 o" c
+ R# r! q a" ~8 ?4 N1 u8 t
6 j' ^0 @, ]; t. V0 _7 @Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
! f& q) J t ^* @2 L! a9 H/ k' L& x( }4 }
- _" m& j$ Q+ e4 Y4 n- `. D8 i+ MArm的通用型NPU能否获得成功?6 g) n/ ^+ K" \ T) q9 `9 `) B
~, A, z: l# j2 X8 n# }1 Z2 f( P* S; {: ^0 w5 o4 h
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
9 D% [" \' T* P& U7 N
# r8 S) x5 U' Z2 O1 ]1 Q' x9 y" [/ T' g" _/ @1 L/ U
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
w5 h" T; w& X V% E5 x7 s! a k# E
9 c* w+ u( n) ]5 Z
* k! O1 @" g3 j) ?6 Z! a( R
+ `" g; m' P2 G
$ o6 R# H) l5 ?2 s' a在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
4 l4 [* `2 h. C5 R2 O8 n, W; o- C0 R8 c5 Q5 Q- Z u& n1 V4 s2 G
( ]7 y, J4 t, X; R3 i$ p: Q另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
1 ? V! L/ Z6 q" J! M9 q0 i; x
X1 V9 `2 ]3 E, @ h z5 ?
0 X. W. B. B+ u( i4 H: f$ c另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。, M' p. a' ]; r2 c5 X
0 n1 ]7 `; A9 ^% _' q" c f3 A0 |! k
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。+ O y3 B* C2 T0 C7 S" s7 I3 s
# K9 ]3 W `8 j8 D( d3 g+ I# W6 i' P. j+ o) e( N8 m1 h8 W
) G) ^1 Q9 I( r
8 g1 U9 z/ {8 `
Q( H" W4 @+ ]; r6 d& E, I6 W值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
6 _- v6 K9 M* s" n& G! f* {
3 J& s% F& k7 H/ w6 R: k- R4 k8 ]. t5 i! }* X0 g6 [
编辑:芯智讯-浪客剑
, Y& i( d. @) d* s& Y" ~, i# c往期精彩文章
/ i/ L$ Z- j2 Y+ j MVR市场迎来第二春:5G+VR云化将成最大推力!
, p3 b6 ^4 U C9 C
' t9 F% d S2 X* w' r6 x" w2 G2019生物识别论坛成功落幕:这十大看点不容错过!
8 Q. g+ m5 I: R& k0 \$ R/ ^阿里平头哥正式开源RISC-V架构MCU芯片平台
6 q8 \- `5 l) I1 S/ U( ^+ L6 ]首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?' K ^* R' p; k6 c6 B0 v
6 f: \/ O9 l, p% m展锐再推4G功能机芯片虎贲T117,意义何在?
: E$ p; W4 B9 C F$ d, D0 a4 z4 f5 z! ?2 P. x, m
历史首次!华为海思4G芯片Balong 711对外销售!
c X. O9 X) ^1 m$ R* k4 S: j* W
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!5 b; P( M5 H6 b7 U# A9 o
# {0 v" G. j7 `2 x. s巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
" C8 s9 p1 d4 k! o
' _6 i6 V1 y$ Y! P7 i* s9 {可穿戴巨头Fitbit宣布撤出中国!
: c% a7 o! p m2 F8 x* ^; \2 L& C. W d. }
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询- ~ z, r0 Y3 K
- N% q' E4 j7 s# R
禁令之下,安防巨头海康与大华的应对之策!
3 M& [' x9 j/ | b6 |) l0 G6 `2 X; a' z) R [' w
为应对RISC-V挑战?Arm CPU引入自定义指令功能!" ] d$ F; ^/ c. T
行业交流、合作请加微信:icsmart01" r; b- e( B" B( _3 Y) d
芯智讯官方交流群:221807116
$ ?7 q; M/ B) ?& T
9 `' D/ O- K) o! l6 {来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
3 D: K! P9 R* Z' U% ]' V免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|