
; }' ?- L* J, ]5 J6 q9 t! t$ P9 K* s# _7 T% T
$ b; c# B$ N1 e: B# e' U! t6 T
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。/ M: }9 o* Y# S
" \+ g7 X: C, }* K% q7 v6 J. J
6 U- h: k9 R, |( \7 l" G2 y% C
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!8 R* ?7 Y' V3 O/ l$ Z
7 _0 x% K6 \# [+ K
2 a9 x# y2 X9 x8 j, h9 w- N
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
2 g, O) Z* A+ M+ @
2 s% A' w# \/ K( ]( |) {/ E1 b" ? m& I9 ?: b& @6 D
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
/ q3 c+ c$ b, ?0 ~
$ P7 ^# @7 |; F6 o# @7 B1 m2 `6 t6 b0 w+ E7 `6 I

% v* q$ Z8 X8 P1 r* \% H' N9 Z6 f
+ P E$ z2 W1 U) V+ C4 w此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
^ ?( h! y M9 w6 F6 \9 { Z; J- D. n: k
' C1 u- H+ ^3 G* u吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。9 ^' d: [; E( Y# s8 V8 i: F
% R. r7 B0 ~8 [2 W# y
% g0 P# G0 q+ N1 l. a加码AI计算,Arm发布Ethos系列NPU IP
, G7 m. T8 n* S) z/ x. @- E& S$ ~
" S* `% x( R1 y4 K( t5 _% j9 h2 K# y& T
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。/ l( d- p) F# e. e( [
w- ~7 [6 y% t1 W, h
) L7 f# x2 B) j2 h
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
( }- \6 P& N: z @9 E' K
0 G4 f" ]0 C* \, {+ j$ Z" _. |$ q5 I- o3 w
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。; [* C3 [# R4 v# p w6 a7 W7 I
' M5 n* d* q9 m- t( ?
3 j# d1 q& q6 ], M8 c$ x# s, m5 b, k在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
. k" M) H, a! U& g% x* _5 K: _8 W
& |8 x+ x: w5 V- [3 E7 Q t
& c: {9 F6 `6 I8 a1 j4 {/ K" _2 E* s) |' s
9 B5 w; H5 c. b+ v2 z: l, {% R5 U
% L H: i4 S8 d e1 _9 d' e6 p Z! P" }8 B! ?: l
0 u& K" Y8 R6 `$ K; S
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。' n; H+ M4 Y# a
* l4 w, t" p& L. s- G3 s4 g0 e$ w
1 {2 p; Z0 x- W
& n* v4 H- d3 D, m0 L- m+ O/ I
3 x4 D. M" \3 N: K
) O2 a# v. Z( ]8 M: ~+ V
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
/ e/ |! b7 L: S+ k! f; T& b! t& E
# m* @/ z& }: v. b7 B根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
, u+ t5 C) C; a2 k$ {9 a
* y/ ?" p. Q0 E, z7 Y* C$ z1 M5 H! F5 t1 e9 H
4 z0 ^% ~& ~5 w7 C5 ]* \在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
! n+ w; B' q) b5 w) q3 ~# x _
' T5 u" E' b( x% X P+ h, \8 Z& a* ]1 n0 a8 O
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
$ {% j' z y3 D- O. _9 L" P! t* z. {7 m7 R0 ?, p7 U- _6 `+ Y; b
6 J, ?- o, H6 { b$ f! T从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
2 A, D' l# g1 u8 x2 z, _2 g& _. |; @2 M; K3 p$ |
, r* C- e6 ^( n: a4 h6 O
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。/ H# R( |& ^; V; b" u2 i0 G
2 A- Q6 M% ^$ U4 E U. J) `* e5 ~9 Z& _; t0 I% J# K2 a
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
0 r$ G4 |/ M3 U. K4 ?& Y% `0 [1 s; R4 H# @# C
# k9 p8 l" j: ?7 Q2 F
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。, p3 f% `% N f) q b0 M
' p- S+ T; g( d* H% j! V* w. p
$ r4 Q% n7 K3 }* m; `Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
( R# V' U b6 h$ \" X/ E' m
/ [. l$ `" A6 d* E, b* z' L a* C* ?
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
8 s) p' j3 b* X4 r
0 S; J4 R# Q+ G" V3 v1 j* _1 |! Q& c/ h* h" }
开源的AI开发框架Arm NN) t3 n: _& N. A* `( V
* A" L* ^# z) E+ }5 e+ K
1 Y v" I V* Q" u6 j3 d( q/ f8 L我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
6 o5 T$ n0 T/ U
. |9 V# W n6 v0 o/ _' W
) s! ]& i! ]" o5 f0 ?5 v5 i: M# A$ @而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。) I3 t& M+ y. g+ {* \3 A1 q) g% X
1 Q4 {: K |9 }
# u9 S O9 p6 s
$ _8 r' g- |8 d6 j9 X: e
% y& B' ?9 U3 g/ F( s# n
; \1 l/ \& N1 E5 S T据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
; C7 L7 q1 A- U5 Z* C+ r6 W
7 t. b: P4 D3 U# ^1 c& e# [# x
5 d1 L k _3 S4 R/ i! bArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。* L8 P- P+ s V, w2 _
. r% U6 S9 C% k! E. M/ B
8 l* M: k$ o% n: W5 w5 n' M9 E
, Y: W, z: T s9 c$ E. ~* R3 X8 X4 A( J/ k
1 T6 [/ j7 l! p) E4 J% X( R* o, D此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
6 v# z9 i& b! t$ b! `2 p/ `
- _( r% S7 e3 v9 E6 e( c; `$ [9 M2 ]
Mali G57 GPU:为主流市场带来智能与沉浸式体验, s4 b% x4 j( S7 F2 W
- \5 A- R- L! m6 T, ?3 s
8 a, j7 [+ I, F( R6 k今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)6 k% \- o; ~, s1 g
( X9 d1 K2 h+ S. _1 r) s3 e- D; ^! |# W5 M& {8 i0 l

5 ^6 w5 M: Z8 M9 h' a
/ l* O5 b/ R2 g8 h! H1 Q8 j# E5 o) }
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。! u3 y! Q* H0 O4 r, f; P8 e
6 b+ U% \! }7 X+ |7 Y9 n
9 S0 g+ U) [! A* x5 X, b; kArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
1 A& z" A# a/ {1 }2 O- I
1 V$ t+ C) b+ `
$ e7 _% R4 H& ?0 ?Mali-D37:Arm单位面积效率最高的DPU M5 X+ l& G' x4 l" Y
2 L! z' g* T& ~! x& F8 }# k$ A
8 ?5 F0 d- C- n7 K7 K
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
) V3 T) [& b( T3 {
1 X3 K& Z' j( h$ o% t+ i- H
& ?1 d/ O, k6 x1 R7 T6 i/ a
5 l* Y5 r/ ^9 d, B; I! |
8 }& s. v0 z! |/ g2 j' W6 K4 T9 T. d9 O V f/ R
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。! y9 u. x6 O' ]- R
, h! F5 R5 i4 u- P6 J: k/ X7 O
7 H7 H9 [6 {7 W6 H* P在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
7 r. k* O+ f' m# u1 V3 Q/ L6 I% J# f1 j* U7 E# R. \
+ P1 H, u3 O; H% SArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。& A8 Z' Z: ~/ H8 u8 T& j+ p
z' j" m, f: t+ Q6 G: L# Q$ ~
' D( ~* e/ v. K4 gArm的通用型NPU能否获得成功?$ ?, O# W; { X% V6 o4 z
/ U. r9 g1 w( [2 _! S6 S5 I& H- ~7 \' ^7 p
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?. @7 k9 ~1 z& |2 W
3 E# e- V* ^5 G! e x) Q8 r7 w! e
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。: T- k% h3 {1 H
. l) z+ m' t6 k6 S9 @3 S7 F# {- h1 } t) j/ Q7 w% G1 z! A
; O7 \- G$ \1 d* T- }
8 L/ i" N1 H1 V& D+ w+ Z
& V( a5 ] q4 q在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
; }4 E {4 I1 k5 \8 C- w6 {) [
: b) L3 l* v0 N
9 J0 o% |/ ]) y0 B% @另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。! c# I2 e9 m' U- h+ @1 `
5 s" e$ b. ?. _6 Q l3 K9 L. D+ Q
2 {- ~: \1 p: J3 O, k* G另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
: S7 p, O: j3 a( O6 [' J
1 c9 f/ r/ \( S4 H. D7 g' g$ I$ m" }9 R; H( t; [( F
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
& f) [9 g$ B* N1 T
. e6 D& N; S# y2 r1 R1 M1 J3 ~+ o1 ?! F
* ]" C, ^' \* f: a: o# s6 c; H- @7 q+ ?5 z0 n
6 Q3 ], h; q/ r8 B0 n值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。# h5 G3 O. k) O2 A- [! i9 |2 l
5 z% }! o! [. E. q
Z1 P) r5 H% w, S
编辑:芯智讯-浪客剑( H( y1 F% Z, t: W1 u
往期精彩文章* J" _( ]* U( C2 l, j) N8 }
VR市场迎来第二春:5G+VR云化将成最大推力!) ]) z3 p! w/ d; ?6 c
r+ J( B+ U5 m+ v3 g2019生物识别论坛成功落幕:这十大看点不容错过!
( ] j: S0 r/ `+ F4 p6 q阿里平头哥正式开源RISC-V架构MCU芯片平台
% e+ E) ]0 q1 p9 K首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?0 Z* s2 h7 r& F
9 l; v n$ i; h
展锐再推4G功能机芯片虎贲T117,意义何在?
$ E# P* X+ c* j4 y+ o+ K7 c1 T
8 {+ m F d' K8 F6 e历史首次!华为海思4G芯片Balong 711对外销售!0 D* O6 e0 i3 y3 Y/ L! z" D
# ~ P$ R. L [- h/ T8 `; X
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
6 I5 i: F. T; b, O7 b( q3 B- A5 a( V" m- q% P+ u& ^9 V# ]. Z
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!, K) D& D. I6 G# k; _! M
& i, x- q7 G# W# Y' \3 z可穿戴巨头Fitbit宣布撤出中国!
5 k& A. S L5 t$ ^# S
% s7 ?& Y- N; P- u+ m: u! i收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询" n2 `6 [6 r, n* X) P5 a5 n
- g" f" ^- `; j0 } k: k5 W; t/ t0 ^禁令之下,安防巨头海康与大华的应对之策!
6 \+ Q# t# R' z) V/ s* T) ]4 g; C9 V
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
8 C& j1 _- p5 y% w, ?) X行业交流、合作请加微信:icsmart011 u1 c: j! O, P, m6 r: N
芯智讯官方交流群:221807116
; j* U- I" z3 f9 g- r% z; Q8 R6 v: R$ C) j, B# b' B7 T
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1) d! o) v% E8 d& ^* F
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |