|
|
7 B8 Q0 ]. S3 U; Q. w: p; c
" M6 G. `+ b2 e( O+ j2 J/ I7 U9 d# c" N1 H1 x) |, d* C. Q
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
z1 o* M4 {( _3 I& p+ j* E, M& m; C' k! h' B
0 I8 Q. J: a9 P/ _9 U% Q
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!4 v, T7 [' q4 F7 D7 e; ?
0 K- T9 H6 G* h
2 n' i5 f/ E1 \7 a; f今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!; {% F! l; M0 x- [- e
: K. H! G9 F& U" `3 |. E. e
v- ^" _! w$ G! p9 Y" e10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
. ?2 G% }) x4 v6 ]; y1 B% [4 J7 U* Q0 d( x9 [; ^9 r
h% o; I/ j+ }. F+ w& B f0 {6 q ?+ y8 N9 d2 r5 V
; S. {2 V+ P+ f7 H S [2 B
! X8 n$ @ I9 J+ \4 A( J! i' b! }( y此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。, s% A& c% O g1 J- j8 }. t. D2 g& l
2 T0 k" s& `( G9 P- @
: F* S. C6 S* Q吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
) k$ Y+ T" C7 S9 A, @$ S* x
0 A+ i9 T+ e+ @- A# H4 ?: P+ }% J
+ a2 s: A' M& i) ~# G加码AI计算,Arm发布Ethos系列NPU IP4 ?: q" ^7 I1 d$ w! s
( j4 _, y: @& u% m( e5 Q) B v5 m# d+ i( ^* {+ {
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。4 y- L) g) K) V, M
. O) s/ M5 a6 T' I0 M! [ i# }. f5 S+ {* H+ N3 n
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。" Z" Q1 k7 R6 \, }5 X1 p0 w1 P" Q g: ~& I
$ Y/ K8 n! b g3 h& q: k2 `8 n( J5 [& A6 e6 M1 x0 o! D
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
# K- K; f; c# f
7 N& [( }+ p# R( n2 T1 v6 F/ }# Q, p! e# L& ? j# C) e' k
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
' l" ^& L' F/ s& a
; y7 t* m& a8 j
5 l$ [7 \$ q1 `1 H8 m0 J# Z- h' J" `* [/ [
+ L9 @* R @/ _2 P1 U) D6 R2 b! }; n( m1 w$ T: b2 I
4 d( C3 f; g+ A, L
% ^+ { L/ v8 u7 ^5 s2 h) Z今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。 |5 |* A5 R' p2 Q! G
: O$ B; q# w' s3 r0 P$ N6 U) B
4 \5 u9 u, n7 E) T6 H

/ S; k9 t4 c. o( X+ c - J3 Y P! q8 C$ B0 P: t' }' A
0 U% S+ d) @, e" d
- W. W3 ^" D* A/ s6 R, GEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?7 _9 @0 O' g! R+ z

7 b9 F) G6 G% N# n. t1 l6 E& T根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
( k% t) ^, j( z# Z% u( v4 h0 D; d2 Y5 i- c7 m7 l
8 h l$ N) I( F- L1 \$ \
3 g$ j( E/ [2 r; L
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。+ |5 ]) O& P. f8 X# h) r
0 l$ C$ {5 k% E
* p, h; n8 S" r% v- J
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。6 P' l" {8 S4 V) p
$ A8 W ]6 G- w% `# x
( E6 y. {5 ]- E# _# q从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
( E% V5 G* m" T- U& B
& i, ]* V$ p) G/ Q5 y: L6 c' y! G3 J/ ]( S+ O5 `) U
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。# R5 w9 e |2 b& Y; V3 v; q4 x
: h# i1 d# t4 o; h3 X
) x7 F6 X s' l( N. w2 N8 zArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。9 z: ?& _: }, E+ N: J8 m
1 I( \$ H$ I1 k
0 w4 J$ J$ i. h {另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
7 ]" j8 r: J- l3 h% m0 I4 G, G! s
9 s8 C4 E1 G6 }4 x! s( |. k& _* A! ]8 T+ ]7 D/ Z# D
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。4 J+ {; O. W1 C. U/ r
" P1 W: C# U6 Q# Z. J
% _' B, h# _ f- G) j据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
1 U) B% q U6 o# d W' O
$ j7 S, w: g- y' U* @7 W
$ s' Y, h. {8 ]8 G3 V) i5 z3 h开源的AI开发框架Arm NN
% H# V2 z1 _1 z6 O4 O( `( l$ J0 f
: ~3 _7 B# t5 r2 _( {2 ^$ i6 v7 A) v$ d- v9 ~# t( d. ^, y
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。$ j, M# ?8 M0 k% K9 I
/ {, c/ U/ O8 I9 P% b6 s7 w# v) N, V; ^
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
* t7 n7 g0 U$ s! C; N7 E0 O
1 O, Z/ `8 N& T% d0 u: \2 Q U* ?8 K4 I5 M# n( G4 V
2 J* @4 z/ Y) {9 n
" W# R$ ^+ K. {8 R( H
6 D, g# U5 |8 d5 P
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。% C, N- [- |) s, V8 v
& r* k6 ~7 J; B4 i# U
- g5 Q3 i+ @+ x& h- b0 L5 SArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。; o( d: c5 e9 r9 b$ d# d
0 N$ F/ k, ~' x. i4 e; h% c0 p' d+ g% {$ C8 _6 [ Y
" q- G. y/ R% G+ @' e. v
# b( `7 w1 }/ g* ]# u5 y# k
, p9 M5 }0 O4 e, K此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
, {. m$ r! Y$ k* I
! | T% H) i5 P" d) j/ B0 _# t/ @% a0 m4 |% M& N
Mali G57 GPU:为主流市场带来智能与沉浸式体验
- Z! U' S4 n/ L9 T' l. O
# k: i* B- V+ \% {2 f! P$ j0 V- E: _( b6 x+ c
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
6 l' ^$ h/ i7 }6 H V5 @! S6 X2 i( O. P- P5 x2 f0 q
$ A7 e0 }" @) [ }* r+ n* r) Y
@& ^. w% p+ N! q4 H$ p+ D& M+ j& k) Z
6 r% p( Q4 ?+ j% ]' C% e( V7 w) a2 i% v$ o7 n
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
$ l1 t- i- @( ]3 d- @5 T. p- R" B \0 I2 t' Q
5 [8 q" K" k/ Q% F# [, E) k
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。3 e5 ^* t: k( s; S L! a, ]7 c B
% f" `, _; }1 {& Q
( l, T$ _" r! z$ h9 c- C3 K3 E8 W% JMali-D37:Arm单位面积效率最高的DPU
) U) A d2 A1 ]- |* |; Q3 T
7 m+ j' A; N( ?/ i
~) i5 J y/ @: O3 j在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。 t0 K" i8 c7 r; |9 m
/ J3 Q1 v$ k" a* @# ], J# N+ g/ o' p- N

( J/ ~+ ?. @9 d- f$ B, O4 ^
# r4 N* d' F3 l; q2 q. E* L! T4 g0 `' t s z/ {. z! R" k1 ~
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。8 y- M% J. T" x0 V) p' ^8 L
! [' m* f- h# n/ I9 ?- V
5 \8 R/ L) [' L4 i在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。) t0 o- U3 h1 V' I4 ^/ b# _1 h
4 W. M. b$ `" r* s3 S
' t7 J5 p3 c3 \5 O8 M. [, ]3 R; HArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。- F3 A% Q1 G$ c3 k7 @. y1 v
8 r# O3 f$ V. _, i( [, C# M+ t) V& |0 y& A" \' t4 N
Arm的通用型NPU能否获得成功?
& T$ Z5 Y# [2 v9 c. ^ G5 C9 }+ }
a' H$ b' i5 L从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?1 }" v* H4 u0 I0 R; i
+ } w* D/ \% O K ?6 T& _
2 Y8 ?3 g R/ ^0 n, ?9 [
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。# m$ o( B) n( D) k9 R
" E* p2 m- e% J. \
7 }' {3 l: a9 n0 Y
7 a: e- A+ R3 v
# N0 N1 j. k' R4 P) N
* i" l* A5 q: O在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
4 `& \9 l, B+ n/ L5 } `! S; C4 {0 ]
0 W* V2 b* p" c: }" r) I- T+ j a7 {! U. \0 W0 x
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
1 w6 r% V+ \% m
2 C1 t; j5 s0 X; O
0 ~7 Z6 A# ^; G* c- Y/ Q( N8 v9 E: d另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。" c7 o- Y4 S! f) O
$ `$ }9 m6 V S- @# E5 P) h
9 A: a" B4 Q0 M |5 ^, D! |
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
4 C8 ?, b! P/ m1 q3 R
8 b2 d; i7 o* K, x* K* ~) q. }* o; {0 S" N( f$ ?
1 D4 g7 a+ N* [# u
8 D% ?2 g: V/ Q' i/ i& X5 o; d
! K6 Y* h/ Q8 k9 L3 Y v u值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。: M4 l* g( d/ F
' q2 N1 `" J' S
- I- L; `- }1 z7 ^# r0 r `编辑:芯智讯-浪客剑
# |. a- ~/ T9 Z( C' r, t2 u往期精彩文章3 o% w0 r7 I7 y# U* f1 t. F% M
VR市场迎来第二春:5G+VR云化将成最大推力!+ T( A2 V4 ^" N& a! K5 N
- Q- w* B- Q; {8 f6 H4 f. t
2019生物识别论坛成功落幕:这十大看点不容错过!
+ [' v; z+ `: E' j阿里平头哥正式开源RISC-V架构MCU芯片平台3 Y3 a4 W- [& O) l
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?0 s, L2 n3 M3 y' [, ~1 T
' G# _2 ?& ~- j: X5 K展锐再推4G功能机芯片虎贲T117,意义何在?+ K# l' p7 X2 f% d3 p
. { Q4 l# D0 O+ d
历史首次!华为海思4G芯片Balong 711对外销售!
! e8 y! Z& a# q% y% l6 H' `! w! W) N+ x0 b; C+ o: e
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个! k0 l/ J# \5 `; ^0 {7 D' h/ U
$ |, W* Y1 }( ]; Y6 X8 z( l
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
/ u; O8 g3 ~4 ?! L7 m6 B7 J! c6 E: _. N1 s4 h
可穿戴巨头Fitbit宣布撤出中国!: W: c$ W$ k: F6 ^
6 I, L$ ?4 i5 t3 A# o8 U0 E. {收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询* z; }# V, \1 d2 p
0 [- y* ^7 y; @9 c3 R禁令之下,安防巨头海康与大华的应对之策!" \$ Q; g8 e, C8 c, @) W1 @
7 w1 G5 s8 c1 E: j6 t
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
0 l4 s6 U( K, Z# Z) y行业交流、合作请加微信:icsmart013 X: S* ^9 z- s, t
芯智讯官方交流群:221807116 6 ~" `: h2 n* m, k' P& g
: }5 K% ^( D2 ~, y6 B来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=17 T( l6 N1 ^" N' V- }& a
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|