|

- o* i! | F+ [8 K) K) c1 @. I
1 R1 W; p. D- ~) V8 J# O! s2 R# X, q3 H3 O) r K
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。' i! \& o$ p* J$ ?
6 y* x& J9 g% h( M+ R/ W
- U/ o. Y8 X0 L {- I1 b7 `# TARMv8及后续架构将不受限制的继续支持中国合作伙伴!& S; I- m/ g, O4 j
8 W" [8 b6 ~4 _
+ K$ J1 u$ B0 E8 _% C) V
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!9 Q3 d9 Q6 |% N' |* u C
5 ?, U; C+ w) _; ~% x6 o7 S/ i! |' x( q7 u7 c7 n
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!. q$ i( C- D; [; y# A2 ?$ ]
% p) d9 r! k. i4 e
, U8 u0 E% L" i
+ u. h) y5 ?$ B) v; K/ \* w- I8 q, I( I- Q7 D5 F' u
4 I# i! B0 B- ~3 O* A" Y6 m8 I' r
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
x F3 N: x8 E2 p- {' L* Z. V- C
0 y' Z; F* |8 o% E# x1 M( t
1 a6 q" c5 y7 o吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。" f C% U$ V0 r' ^
% P. Z5 g) l @4 |6 g ~
& M* A9 g9 K y+ `3 P
加码AI计算,Arm发布Ethos系列NPU IP
. {4 T8 d# w; I4 d3 k% ]9 z$ S1 y0 G2 Z- C8 ~- x
, X0 _( m0 \1 P i3 z* D& y9 _3 v根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。: s- F7 _, y8 D0 I: }7 X( U/ y7 w
U. J5 _; v( X6 U8 Q8 ]* b0 D9 C* n. ]) P; t0 b4 f( K7 o! M' b! I
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。0 R( y+ S! X+ g
) q* W7 ~/ X# P4 [9 u
) N( \* ]: g, L6 ?
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。- i. l& ` |% ^/ c0 c3 l9 L# I0 @
, L0 D! r0 J) Q1 ~/ S
! \5 V4 \6 b0 L0 y! Y在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
* K% i' B2 W% {$ i4 |% O
! w: M# b* ~& q8 Z
0 U# k& [6 s: e/ h8 V5 f9 ]+ l& `0 ~) `4 Y8 j
" V: a4 F4 y4 }5 J, D0 i/ j
" U. s' r* P6 G2 O
) D/ h- c: ]* k, _
. r! B6 C# x. \: f: w( B c3 A; C; D3 `
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。 g9 k, v8 i) z5 K, M/ w
8 [$ `; v7 O. B! K5 R) W% S$ x) l) ^9 ^7 K* O6 u
3 G5 C4 k* d( m* e: k5 ?
- L4 j- ^ `8 {# [/ H& u* w
) P% X9 M8 }% h/ Y( L' S5 y5 x( B# W) I6 |1 g
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?# m% I" Q+ R5 s0 M0 k- \4 f4 v
4 _2 c( f' N. P2 p
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。" d/ R0 x" `4 J% W4 I3 v; x
) m, H! Z9 o, D$ j
8 a4 n, B6 S2 q! |4 U, b
- u# Q6 q* c1 |3 t1 d
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
* S9 i- F% d% k' f n( n! d) U$ r3 b, @! S' `0 O+ ^
- y2 x1 m- ^" i' L6 C- ]$ q6 b在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
$ F; @; _. X: H' o1 ]; D: Q+ l! z
; l2 [ R3 z/ z3 N, g) l
, }' X. M+ F1 n3 K从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
" D+ A0 E; w; b2 {
6 u' y# M7 t( P- i+ u/ K& e
# G3 D7 v% b( d) @# ` L$ ?" J需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。+ g7 z4 C E! e. {
$ ^6 ?7 z5 ^" G( i
. z4 ?5 ~6 s" o, h Z: P, M: @
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
! }0 X6 V' `6 |' A, Z, ~' I {* W9 }2 V8 z+ M/ p8 T$ k; I7 r) D
R5 n O; U7 |0 h- N; X/ T5 M- D另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
2 Y5 |. \. @$ C& x& K5 d) @" J+ z* j! S$ O
% M3 B* z+ Y, f3 gArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。' l2 j" p) [- ]% F R, |( b
. N( i5 u0 S, t" A+ i6 | t
, Z) C9 h- n5 Q8 [$ I/ U# g据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
7 C V: J" l K! a6 { Q) X0 t' i5 `5 h, X# \7 r# R
* g( p) u. v; A5 l6 b4 S) g$ }
开源的AI开发框架Arm NN
, \0 W7 a8 ~" b0 I' ~8 t3 }0 x ~) G
0 i& g" f: }) q$ x5 l7 r: q我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。/ u: g9 I9 M1 y
' \. p% q9 p1 s \
( W6 `8 }9 h( X9 R3 z# E3 R而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
; @) J9 d+ R, Y" @2 D
) m8 \: m3 }- N( { U, x" ^* s* E" n5 Q# z
/ y2 t/ ~6 f3 G7 J
5 _2 O# G; c' L
2 g0 K# V* [$ l V0 U, J
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
" y( p$ \: y+ U7 I( Z; v# z4 m2 V1 {' T6 F3 ~
- p( `- o( D/ t; y# @1 [
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。; Y1 F! S1 `1 X$ f
3 N% a6 E# F" l
0 D/ ~% D a1 k$ s$ S
! X: B- ^% ]1 ^ P- V
0 ?4 B$ X, {# c S# E% k9 [; \
% r3 D, _; A, Y此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。 e! q2 d9 q+ N. R* k" a1 e
/ z; V3 L3 t, u6 k
9 P+ E% C" C1 Z6 e$ c6 U& f7 mMali G57 GPU:为主流市场带来智能与沉浸式体验
% [7 l H# V8 ^$ S B5 w% L6 U: H/ i: d8 j/ [# q
+ C# \( }& y# `! e& x今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)1 K- ?& h. L. b. _+ q
# H- B% j" c6 S& e* {% h1 U
s @# u( l8 t. L. o( ] 8 {" D$ t# f$ L# f
$ U, l+ x1 @7 q" {4 U2 d
* d' t& a# s5 }8 s( Y% Y据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
3 V: g" r8 B( L( s7 c
+ K# q$ J) T& f: E/ k4 y4 N: K6 n5 Z1 {0 [
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。. |3 c* ?% G& d. l4 o
" {, Q- {8 X; a
8 W' y l" y/ b! g
Mali-D37:Arm单位面积效率最高的DPU' F# n$ R3 U) p4 j/ S# r% @' b2 Y
?$ ^" x/ ?+ G, J
$ s$ R5 j8 ?9 G; p在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
L8 B/ p! \2 d! S4 A7 L- `) K) I0 e" \6 |) {( z
% a8 M# x( X4 ]. d% t. A0 P1 h

/ |1 M0 ]' E( c: f8 R C7 V r6 S. @% f0 }4 E& Z* C* h) x
6 s& R5 f( g* q: ~$ c+ [8 |
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
6 k* I7 x; J4 j- ^2 g7 ^, S' k" ?( F: N- S, s1 S; D" v& j4 f# C" o9 T
3 H/ w. D( H$ V: _在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
& z" y. Y; v2 l. x: R( }$ l7 _4 S# Z
1 t" v* h, V9 Q4 \+ ?3 A: ], d. x& F7 Z% m8 O) u
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
% f! L9 x( ?! k! p) ~1 J# x5 q) X0 s5 j C' e( ]# P9 `2 K
7 ~1 e4 A, O" C6 H1 b, y& aArm的通用型NPU能否获得成功?
8 q* K. \' M" ?7 c2 P2 L+ n% i" X* s/ V/ ]7 U+ }" g* ^& x
% d1 A7 |9 w: V' Y& F1 g" Q从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?* S, M$ m" q. _, u
: d# ^# E8 A' A) U
0 S" z$ y$ {4 `3 G* J对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。" |" B# @3 G- k8 ` K9 Y. ^" a
4 _' f" q: {" ~' m% b
* f" S' {. x1 K* b! }( l/ O
2 z1 @1 L% m1 D/ f! D- s' j4 A- H2 I" k7 b( o( m7 w* i" F
% e& \1 ]+ s5 Y在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。$ F m m! \, o E9 S. J7 v
/ Y8 L& u* D+ S3 i
) B* t! B S! R另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
2 \) E& R- Q" [, L
3 O& U* [$ ^. T( K. E
: _0 k1 Z% q) L0 A0 U另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。, L7 k! t8 E( S% h1 R0 ~% d
7 c' |) ^- J0 t' n" ~+ B
; a# g t* d$ ?- r& K( U+ }8 v- e最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
; \+ a- @& t* f- E" e* y
) i. h' Q" T( {
/ c! F$ h/ @: u3 t
% D2 K, }, V, W# a6 N. {( l& U6 f
& u. M# k* U* P9 H- J6 b9 n1 N7 O) c, Z/ d2 W! l; u; I [
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。8 R* l5 N$ f3 B! y4 N P
0 E* @) H* q! M& n; [& l, Y; e& L
$ i2 t% `/ m+ u3 H0 T" f p; d编辑:芯智讯-浪客剑8 ]* q% Y' M: O! ?+ t
往期精彩文章8 i6 A6 ~0 S- ~0 d5 y
VR市场迎来第二春:5G+VR云化将成最大推力!
( t9 t! D3 D7 i' F* m. c1 m8 g1 `# ~1 M6 L! U7 p' p
2019生物识别论坛成功落幕:这十大看点不容错过!8 N; S; C& u* z' t8 t2 g) G# T
阿里平头哥正式开源RISC-V架构MCU芯片平台2 K( M9 A R8 q5 w" w5 V
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
" Z9 m3 d( E( E0 {
% S- s7 I, Z: D m展锐再推4G功能机芯片虎贲T117,意义何在?
! m- _" H; P3 W7 V
+ @" S; J$ `2 D1 J+ O历史首次!华为海思4G芯片Balong 711对外销售!4 x1 l* g5 u& M0 A4 J
" @ l+ S( d& a; L& \% V7 \( A不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
0 j! i6 O# V4 c* U+ h2 @* _" p, [, P
; Z0 P* [$ T; l3 Z0 r+ N$ @巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
! U3 a4 I1 g4 E2 x( b+ n: ]0 J6 b: o+ W" K5 M( n4 h
可穿戴巨头Fitbit宣布撤出中国!4 p6 O1 ~+ | G. w
- g+ R! c, c. [3 ^' v* O9 o9 v! @
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询' Q( e& u9 h8 x' z4 P8 z& \5 A
/ Y. @& D. ?* O: W2 b" ~禁令之下,安防巨头海康与大华的应对之策!6 d; A* m y9 @: M, t8 \# \3 Q
; K- m# C& z+ K: |" _& @' u. I
为应对RISC-V挑战?Arm CPU引入自定义指令功能!+ d+ p" L, X2 T; v( B! \
行业交流、合作请加微信:icsmart012 d* ?* I& [: v6 E: | {& X! z7 b
芯智讯官方交流群:221807116
% Q. v9 M* z8 G) v. C7 f- e' j* J5 f3 V% H1 ]# [; R) k0 T( j
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1% w2 S) I. }; O0 T/ I
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|