|

) W4 q2 V/ A8 I, w7 ]+ U) z6 a3 y l% P( D) e
; e; s( k/ v+ [2 v/ c! |, S& V
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。% M3 ^5 H$ S: E8 f# D
% ]3 q& G5 V$ q L- D
3 W1 B, a/ |5 D Y$ B; WARMv8及后续架构将不受限制的继续支持中国合作伙伴!
# ]* ~ A8 ]8 p$ b* b- c$ D/ ]* [- T' D7 h
* g0 N1 v# t5 r/ O0 \
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!: `1 C# c5 R# l7 x
5 ~3 z' o6 g, i* I5 e4 ^/ q/ M
; O! V8 q- j! P4 l* v7 |10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!# r' @& X( Z5 t- z& c
2 z( |" C% w# j# y
7 X1 Z+ E' i: W! t, j: X3 a
g& Z+ g$ n; Y0 [: w6 [1 e* q3 [2 F* v. Y1 y( ]
9 m% i b% n2 c) V
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。8 E" V+ D; D% l4 d. T
" P( o, E- E" \, D
" J9 D5 k1 U" ^5 f, r* Z吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。3 m/ D# R- [6 T a8 b) q
% D( L" k# s6 _9 I$ _3 k+ a/ |" {- ~+ L: E
加码AI计算,Arm发布Ethos系列NPU IP
4 X+ e8 q7 y( [1 ?, \
4 r. f5 V9 J, ?( ~/ {. k; A8 S) b" N: U
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
6 p4 Q/ g1 \. d+ T {) W2 {
& c2 e: E; T# n
6 P+ e8 \# [$ u6 |1 W而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
) H. j5 f( _6 a& ~
$ u3 H' K5 L2 d% X8 C' s2 O3 N8 k T2 k, R* z
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。8 k$ X! A6 j; d5 z4 E' l+ K4 C) [
6 E* G7 S! Y/ Y: b
' W# c4 `+ a8 U8 l {在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
; I9 L# w8 ~! D0 }0 E) ?7 L5 a* l4 y5 K* k ~7 V/ L
; m4 \/ ?! K2 L! f( v5 ?
6 Y$ D2 S8 R( J( Z& T7 O& U
; m( u: G9 V& e7 }( b
+ ?6 `0 E- t, \( w! \8 a0 [! r# y
8 b& F4 |! @4 P( P% ~今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。) k$ T3 z" H+ @6 q
+ k( @* I7 Z- k& s6 x) [4 T9 L4 W
[7 T( Y3 g. z4 q0 K) j8 \
# ]) C2 L6 Y/ Q+ [- r9 h
& Z/ [6 t. U/ H# T& [0 H7 T5 R; Z! s; a4 ?/ K% ?
8 F1 q3 R8 h# v) |/ q) E1 x
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?9 [2 m1 ?2 L# X( M0 N3 d
' D7 j8 o Y; {" G+ v7 Z
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。5 m1 }: ~: Z4 ~4 x8 v3 {
6 n8 h, V# \5 v2 W, R7 C
7 D3 [0 ]; W5 o) E8 m
+ j" Y- a( n8 T8 v; E+ E$ b9 B
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
% [( C" F2 r ]( h+ F# }- X) `3 S, s; k' w7 A( x
, O* ~4 d; K# Z4 f! n4 z- h2 ^8 F在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
2 {9 ~& _ R2 @& \5 }7 n
3 R1 L* J1 ~9 b, w u$ ~' n( ?# I& A& D. j6 d2 x0 D9 ]* i
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
8 g4 m5 }. ?1 e; p& R; w
- v+ x: y: x& j9 ?4 V- J
1 o/ U$ `" ^' j# y需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。; F }$ H$ z. \* E! p6 E
* o4 d3 G) U/ \7 r; ?0 U
4 x" l, e( B2 n3 b8 {5 tArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
, A4 S' h4 f$ V- k" l- U( D2 v$ h" B
1 U* d/ x, `9 D% x; Y4 }2 M另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
" ~/ R7 a! w- |7 e
, Z) i9 l: X, m' t$ \7 W4 @( {' N# h' I3 R/ y' U
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
0 e q; ~$ H9 D! ?1 o+ P" Y* a
! A( c0 M' f! X+ M. }2 n* K F: } \4 X" D/ ]/ l {/ v
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
0 ?9 m/ {! g4 H( c9 u9 W( I
% g, {4 d* J- M' f7 i6 ~
. @, {; w$ }2 W0 |开源的AI开发框架Arm NN4 O4 I+ P/ i2 P3 h
7 t0 j3 S. w4 m/ y9 Q) L
2 a8 J2 L' K$ x7 f我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
) x$ j6 v+ {& P' H7 ^" v4 ?; N3 T1 p* B
: ~8 N3 |+ x# W2 k% L
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。: E+ s. w8 o5 d9 q5 m
9 t& k; b0 h6 T1 U* _/ m$ ^
1 \! v6 X; O3 Q 2 m2 \0 G$ P0 p9 X$ ?) X
1 R: F% T- F5 V1 h7 X; N
$ a% U4 c/ }4 Y据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
8 e. b2 K3 }' g& \. n! I5 G0 c& `9 u E W
- H2 n% k# O' J( c7 d7 D' w+ Q# w, t. yArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。5 B' ~! ]5 x4 [3 D! L" p
/ g1 A3 w) M/ R1 R
! {$ H1 u8 L# S8 h D

; g% U- V& c/ @4 y8 e. F
; h# _5 h+ j( N% t; M- e
9 C8 f$ L. L. Q' U& C此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。$ C( ^5 f& b7 f9 Q6 v1 ?( }
. u5 f. q5 J [+ n1 L
) G5 h- [5 V- s* P' l: `! A0 a
Mali G57 GPU:为主流市场带来智能与沉浸式体验4 {& p$ V8 m' d8 ]/ t# y! U
$ W% B B5 H/ A$ b- z0 \+ b& q4 |6 G0 K! M9 z% N4 C
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
4 e( B8 W4 x: q0 q' C, U
$ i6 L2 }! p' W* l6 Q5 I/ I$ |# a/ I1 D( Z& Y7 y5 p1 }

+ ~7 o( ]0 m/ I% e
( Y9 R9 c3 x, J+ r1 l- n! B3 z5 b C" f. n0 }3 W
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。- d4 s0 t9 }$ o1 T& K
; D9 _0 \7 u+ j N9 i! F
2 e: N* e2 F- \: D ^) u
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
; U1 ~ a# h0 j" ~
' D# |3 A% y7 W3 I- w2 x. X5 R
# |2 {% _ a4 s# s) n6 \Mali-D37:Arm单位面积效率最高的DPU
0 j1 \& v: a' Y W/ j' j1 |( y! X, c1 e
3 ^. S- a$ n0 P! j$ X在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。. K' q+ e. ?( D4 ^! Q
& I. M6 s* y" m) L, F. T& x0 A
( c& s; ]/ Y7 J" u6 N$ h, m
, r% t, l: V7 x. A- `9 u1 \! ]* K/ X- _
: R X2 L* S. j: N/ U
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
8 G( x, E2 l- l+ F4 u( k+ L8 Z1 S: T/ _( S& ?# L% C, p9 j
& a1 p9 c: p; [) o; k/ M3 E
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
& c4 C; T" a r; S6 x8 v; m! A, q0 A: g
5 w) v9 W! [/ n4 ], R& sArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。; T6 g/ D' L5 V4 I( d
! D7 u! u5 h& u0 K' n/ m0 R: Q: n' ~* Y* p
Arm的通用型NPU能否获得成功?
' }4 M, y4 K; S& X: o
) M: t$ }1 ^ B% E
/ u5 X3 M/ w3 X# ]2 v0 |从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
R9 h! d$ f8 D2 Y/ ?
5 M/ k; e+ {0 o7 _
9 a8 V, C; w; L- h3 @1 G对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
0 g! @6 a4 Z u* m$ g6 v7 A- U: M9 P; [/ Q. w+ d/ D
: `% ? `) e" ]9 d
; m* E; @, D( v; n0 {. J5 T+ f. \
U4 t" z- H" ?+ q( g1 ^# O5 v1 O- ]: H* j' X; ^! t+ ]
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。3 i! V( b# Y3 M* V
' S i y- X8 L W* e ^( j& X' I) {, [4 A7 O. ` m
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
2 ] o& e0 @) }3 X" h7 U. Z
) {# [7 K% l7 |, z/ m! X
1 A7 j0 I5 Y. b$ {% X# ~1 S( R另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
- Z1 r8 l ~, E+ o: Q
! l( c! n1 ^. T2 i7 k7 n; X( J1 h7 o% l, }. [
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
0 V( D ]2 j& m& e, J
- t A! X( V1 x! a* x1 e {
5 ^, i* D! G: _) ?2 {# O7 F
5 o0 Q8 |. q% L0 I$ K" a) q& ^% T+ b/ a
; Q3 Y; Z6 i" w2 R7 C9 H \ Q
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
4 L' x& I9 J; V8 h5 a) _9 S/ Z3 W1 G* y! n7 @7 w$ y% W
+ H, G( F: R! P) z# t7 p
编辑:芯智讯-浪客剑
( G3 s; `1 ]( Y8 D) y: I. a往期精彩文章
( a5 j' \9 c( ]; y3 B9 m% A' kVR市场迎来第二春:5G+VR云化将成最大推力!
8 ` ?, T% G" `+ W3 ?
- R7 n: h6 o4 I; x* {2019生物识别论坛成功落幕:这十大看点不容错过!1 L; V) x+ t6 ]/ X' B) ~
阿里平头哥正式开源RISC-V架构MCU芯片平台2 p8 Z+ ?6 g9 h; c) M g# M1 G
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
. r1 M$ v, ^7 I+ i. C, h5 l
' Z) Q& _3 U! m5 ^1 K展锐再推4G功能机芯片虎贲T117,意义何在?1 C" |4 i; L& g: w6 @
( S; O) f6 v8 S8 C" D7 U
历史首次!华为海思4G芯片Balong 711对外销售!# J2 T+ I& l5 p1 Z( s
7 K3 X' I( p% o H9 H+ {不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
$ y$ h* l* M, w) R! M/ \# [/ Q! O* T% `" W8 r
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
, Q# a* V0 X5 h
; C. U% c: z; n* u可穿戴巨头Fitbit宣布撤出中国!
4 ^" W. d5 Y- T2 n8 m% W. I
% Q; l- |5 m& t+ x/ Y# D收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询5 ]- L& ^, ^" E2 d0 x7 Z2 S" S! v
8 j% `; a# o0 R/ |' M. L0 B; r禁令之下,安防巨头海康与大华的应对之策!
+ V$ ^) c' T" M1 `2 Q w$ z1 a9 D# Q) D5 s8 d6 _( u$ i- K+ \( B. \6 q1 T2 o
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
4 ]2 H# V$ R8 ]4 D! X- ^# }8 Z行业交流、合作请加微信:icsmart01
6 S9 d8 @- [# p4 I芯智讯官方交流群:221807116 3 S. y& `: c3 [ V8 i
: C: P5 _0 p) z来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
7 _# S- \5 L# x- P6 n3 K, R& p免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|