|
|
! T/ Z* E3 K4 w+ ~ I2 O
9 t4 N6 D# {! E) n9 Y
1 o- p+ w; I K7 K10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。4 f. Q* o8 K2 ~7 o; W
6 |. H& C# ?; D4 [( \ X( P9 x: L+ x+ @4 {( o
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
6 P1 A$ [' z# }1 w# u+ b) F* G8 ^ p/ Q$ `2 |
$ F6 Y- J' K/ ^; x4 c) }) A0 ^! U; l2 {. Q
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
4 \' ^$ F' s4 r. ^8 @4 L9 r) u; H1 [) X) X
) E* h; u$ j, |: r! K$ B
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
; X. {/ ^# U. ^7 U2 ? R2 g
8 Y6 V+ r5 s! ~/ Z. t3 R$ w$ g [1 N9 D. ]) z+ `7 A: D' f" v
4 N! m+ `' Y0 d- }7 [- r5 T- f
4 q9 ]7 R5 m* w% p
% x' E S3 O( O5 B* r& T; b* V6 v此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
) g. e* C) c% B& d
) q) v) A6 K% V% I' K( l! n c" t. Q% o' O6 X
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。! v! K2 u$ g! k1 h7 L( i
! N. U5 l2 S3 J0 f- j+ E; N1 ~: Q2 C* X6 a, {1 ^; D: Q& n
加码AI计算,Arm发布Ethos系列NPU IP
3 T2 Y9 {/ M+ D0 L4 b2 {) H4 r O, H* X* ~* ?
# d; @/ B: t! ]$ f* \% Y- }8 Q( K
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
* ?& l3 t3 o7 u {) G3 u r( ~5 a; `
; _ N/ I2 i B4 I0 y9 @
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
- d7 h3 N2 |+ @9 S) [1 M" Z1 L7 [% {2 w# a
8 c3 w# L9 S6 b$ n) i但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
$ p0 Z, }! t! }
0 } e5 l. E4 ^; B) X: K; [4 l, i# p1 V% `8 E# \; }$ ]
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
( l' S3 h- K' y1 ?( w$ r: |
4 B/ h# H1 o; S9 `
# h9 i7 H' Z: T8 K0 o y9 m# v$ t, Z+ c; m- K, o: u2 Z
, \0 C" l) }8 i& _$ P
/ A0 d p2 m# R3 [0 e- s
- F/ E6 U8 @, @2 q! [
7 _( Z* O' s* M/ [( p/ @9 _- M今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
5 M* A6 r: C/ d4 k- v2 I5 A" W: a3 Q: W* L# K% J4 m
9 Z3 p: ~; a. u d0 h
- \# ]/ m( {/ P
& ]/ Q: C9 w8 D7 j$ o: V
: C9 p: ?2 ^4 M |* `6 Z
8 C0 Y, I- g1 @# L0 }' e7 HEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?3 o' Z6 o5 G2 s
7 a7 r- g2 b% v/ s% j9 Y
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。5 }; i6 Y% r% O2 F# [ H
9 o) Y- ?: c" n ]8 K2 ~8 i4 ^
& p9 f! x1 U* J3 ], H# S! A; f( f3 j2 |5 y; T
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。+ w4 _6 c2 k+ G( t9 l; j6 ?3 g
$ M) ]; c( B$ f" P5 s% R" @ w- T. _+ Z/ X. ` I o- F( u0 z# ^3 o
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。. z4 y9 f* w* X7 c- G& N: x) u
+ _/ Y8 Q% ]: T* B t
! s; T4 s+ w( J6 M7 b' f从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
! m/ g8 X V5 a# }- a* p5 O/ m/ R& L! \% U7 N) w3 w8 t
; W0 x' g$ _. O& z% k9 t; l* ]
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。- T9 H& O! z" E) Q( W% X. Z6 s& k
- _8 Y9 J9 G O' w% V0 S9 Q# S6 L
0 k/ D' N; C4 c$ G& Q# lArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
5 Z" F I) ^( {! [" ^/ K3 ]3 r+ H: p$ H& O; e p2 A
# I" \6 m- q2 j" D" A8 m4 Y# q# w另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
; W2 r# p ?2 e" r2 A7 x, W, m. X% s7 y! Y0 T
! d6 E0 r+ B4 [; v* RArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
: z+ d$ V$ _0 b# ^' N. F& o$ e9 {: J9 T* ^4 m, _. U
' I+ L$ K- @+ l2 l1 k/ S& D据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。3 o* \/ D- @. O! f$ X: P5 @/ Z
% ]2 C2 K4 T& I! ^+ ~
/ n& _/ X# M0 {% D8 o% c开源的AI开发框架Arm NN
; b1 Z8 x# G7 ]$ V" T0 p% z1 y! P( t2 R6 A
& ^/ h6 i4 w! ~% G, m6 z1 V
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
! u6 Z0 u5 f2 d5 f3 T6 G% Q$ [6 P8 f; T, F& E; j9 Z7 X/ f
4 E5 u# Z: I5 ?1 Z而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
/ ]9 S$ R6 x1 E* W" f, L q# }, j8 }. {" n; d
5 k9 T2 C3 {# z2 G; y: T - m$ z& |/ E5 }* @
5 J4 R0 a# J/ B1 f) S9 L- v( j; K9 ]
5 ^8 l6 g, s2 H/ `% q# K; w据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。. v! A/ K* W1 N- K* T% j$ F
2 s) H- F- }8 X4 V n9 O
, ?9 Q1 f4 G5 R p) U5 z& n% wArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
5 ^$ Y1 M2 o2 t E( Q+ I4 }9 C5 I, D7 P+ d4 M+ U
0 e+ }! h, {( B0 t
0 _+ p' v: {- Q% M0 T% j5 x' a4 U: D4 d$ T( D1 i9 ~% @# _' G
" m a3 S" P0 |% [8 D' k. |2 k
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。0 u/ I/ D$ \( K
5 Q- X# ?7 B) E: I; y5 c8 x7 X
5 b9 ~5 f! n8 n! U0 a5 [( \
Mali G57 GPU:为主流市场带来智能与沉浸式体验
$ t4 t5 u- V1 s
0 X7 K. _& K& s
4 H' m9 E0 s5 Z1 n V% o今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
, n2 ]- y* V) e; h
' U3 V2 p5 j: \& c' u) i
' K$ y5 \# E! j% D7 g9 m
9 ]: {! \, W* R5 i; @4 B4 X, A" a. T! w4 c9 j7 `* `+ t
0 l: Y5 n$ k* Z! E- j3 q
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。9 M+ @! t g/ l+ T7 ^( C! e: P( _( U
5 E; ^3 p: }8 K [3 H
4 j9 A4 w* ~5 \- DArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
* o, O. V' G' u; A, m3 W w6 C4 S& p' ]; H
* v1 h. ~* ]5 U, wMali-D37:Arm单位面积效率最高的DPU2 L/ q4 Y: @% t: u" a4 H
; ]4 t* Z1 C& f8 L/ h/ Y: t
$ @) _8 N! c9 E7 K' z# r; d( [在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
4 a8 t ^% L* r9 M3 w
4 T* L! }9 `& t" Z: z: I6 {* _: |0 g# x! q
) E+ Y3 E. D: C6 n
3 G- m4 ^% G" @9 |) A& v: V, p: J
* `6 Q+ {8 o" s% g8 S# M3 m
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
8 E( W/ {2 u* E8 V( k8 A& C7 z% v
' d- T4 \ m# m# \" p5 ^1 v
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
; @/ X" ?/ a7 {* P p
0 g3 e }3 K3 S! t* I5 ?3 M
1 e7 [! F+ F+ p1 h& c) z3 f0 {# ^Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。) v0 d% @2 x3 v/ ]# E; I* l2 W" H; h) D
3 e$ k% w. t; a6 P$ H
1 i7 P g |, [" R& d# wArm的通用型NPU能否获得成功?
1 P+ e% j8 b5 u/ W/ C( j6 ]5 O% p* ~
4 c4 ^6 m) T% Q3 p+ Y5 V
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?7 W' T& L: i# {1 {! M
/ J; m- R2 |! P- C8 }4 X8 u* n( K" R' y. i+ p: t2 U/ ~
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
* Y/ h; K- j( r" z
" @/ E7 y8 _( e/ p6 [# V1 h/ u) L' m8 c8 l- b( [5 L
% X- ?7 ?. v) k1 d8 M) Y2 \" _) v
/ k% A K6 j4 _# o, ?5 H7 \7 }+ Y3 w @( {" r" c: Y( M
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。' T/ {- x& _/ \, z2 E
: z* x* V" c/ D0 ^' p/ t" o2 a) }7 j8 M: I
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
1 v6 K6 B9 X7 J& R3 R: j
* ]' d4 _- O8 x& X# W1 ~( M' Q) O" p* o0 q8 ^
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
2 T- V6 ?( r" T$ _7 R
+ c" s3 O6 ~% V4 ]+ `
- }1 e& [* L& }! Z8 L& I& q9 C) q最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
5 B- s" o' j& F# [0 t1 _2 i4 L3 v; r' @( u" L3 U e+ P1 e
5 v# E5 b% n( e! s5 J9 H9 b( O( w* i! S# ?" e
% @' O' _+ b `1 S# o% Z- H$ q9 A4 T0 e6 y. H; m% L6 K
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。1 s5 j3 I8 u& x% j/ B& F2 i8 x
+ ]. T- M0 y8 t
# ], A, i1 {7 e2 K
编辑:芯智讯-浪客剑
# K% q1 ~0 c; X, |$ x6 J往期精彩文章( g% ^) x0 X' S9 z z: Z
VR市场迎来第二春:5G+VR云化将成最大推力!
# @- E9 J& Z \- e1 z: r
) _; t9 Q; R. `' ?5 I4 e4 _( }2 y2019生物识别论坛成功落幕:这十大看点不容错过!2 b4 G1 _8 I. T9 G" S
阿里平头哥正式开源RISC-V架构MCU芯片平台
~, b6 S$ d$ u& Z; N; Q首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
( G/ \- T7 _3 g
H( B/ e6 v$ V2 a7 R展锐再推4G功能机芯片虎贲T117,意义何在?; S6 s, m2 p6 V
2 f9 E, s9 A" l& W$ @, p& M& W
历史首次!华为海思4G芯片Balong 711对外销售!
. Z7 ^0 y# R! `$ N2 w% u4 W9 U* ?. [/ [& e
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!; F8 \; m$ U: \- {7 ^1 Z L
8 m! n% S1 X/ U# ]$ X' C巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
& `3 b/ k' e, ?4 _: J9 U0 g) X3 l. u! z4 ]) c3 d8 H8 `- Y; F" ^* R
可穿戴巨头Fitbit宣布撤出中国!
# s3 ^& \2 L# U* N8 {. s
, x6 |4 c% F4 H% w( X收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询2 X! y6 P; o2 I. S4 s+ @
- {5 ^3 S: V' [
禁令之下,安防巨头海康与大华的应对之策!) X' b) ^# G( d1 y) V
) |' e* l: Y' O' u. L
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
! I1 M( X8 R+ F! o7 M行业交流、合作请加微信:icsmart01+ r9 T" m0 _ w8 p: Q
芯智讯官方交流群:221807116
( }8 N. N, Q" n, J: d" f& k( K+ @0 W+ o
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1) `% B. ]: U. O" c
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|