+ M8 |4 n9 d2 K4 `4 ]$ }
0 ?2 G, ?! Y6 X; I, D- W+ c% V) w E+ N5 _" } H0 B! N
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。9 K& ^* b& I* y+ u
, ]2 Q, I0 A" l
: G, J+ i6 r5 a1 U' [# KARMv8及后续架构将不受限制的继续支持中国合作伙伴!
* [. @2 H. Y, \( N; G, S
6 S1 H9 X2 b" p3 x& e/ N5 [: J6 W- ?+ V+ O( m
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!/ }0 f2 r) e# q, `
( o4 Q4 ^4 g4 q9 P# }" U) h2 ~" w/ [4 i' m. D5 V; p* ]' q
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!( ~( ]* q: F7 ]( t6 t8 ~
* Q0 {6 D) Y6 D( y- b
% J' i0 [' c6 h( O& b

4 y" L U( k: s0 B
8 w- m0 Z I0 T& e/ v
+ j( G7 U% t. W x& g0 D# b此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。" c. L; n& ~' Q+ w8 V: A) M
- p; E1 } ~1 c6 r+ j$ P
/ ^( f5 ~9 {4 g7 y9 o G吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
8 E0 E4 g% l1 B! F) y( @. K1 K0 s: Z3 Q/ W
1 {) \8 M t4 A; W! C8 V1 B+ d
加码AI计算,Arm发布Ethos系列NPU IP
% D& M) [8 b) _" }1 k4 G4 q; C1 f% O; I4 I- D1 g/ K4 e
5 y% U$ {9 t8 p9 b3 _' ~
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
7 v3 m9 Z1 V/ n5 d: x% p5 ^/ J Y5 G% B0 J8 l; p8 c+ _1 f
5 E. {% S8 f$ d5 B4 x) c
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。 Y0 S/ N2 J: ~" M2 h
" c% t" d! t" H7 s& D% m
2 }" a# e$ w# g但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
/ ]2 d6 V: x$ [# [$ U- s+ c4 E$ s J$ U, ^" j" O
. ~: t8 G' M: f2 Z! {. ] f在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。( l. R. V9 @' n+ \. `
4 `2 [, s+ m" K; u- z; x
3 f1 W4 i6 d0 @4 W; t$ F- e
X" n3 }6 @% \' D% i) h. q- I4 Q" P' C, N& s9 m/ r
9 W* z5 f$ P. V2 B5 y
6 x: F8 K) a7 [7 s+ K& Q
( |; ~, u8 x5 u1 o今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
% `3 z. X8 b3 z. L0 a5 ~% Z0 }. c) [" p$ c; L. O" k( ]
$ m6 ^* A! J) o8 t+ g: ]

8 _4 }9 h' [' v
% X& _$ }: t6 {1 i* Q7 u5 P- N
/ V3 U2 e! e( a) |* [# C3 `2 V! w' V
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?3 A! Q0 a% `# Q' \& A5 B8 d

# f' _! r2 J- T8 I2 u; T5 s' Y4 z根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。) V N j* z ^
$ q3 {/ } q5 L6 X: H+ B
+ F/ G9 ]& r3 J
+ D) W) c. H4 W3 n6 n; h+ x在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。. Z2 c, K$ [5 Q% J7 D9 R
4 _' K& u, O1 ^; ?
9 N& Q1 d- e8 _" S9 v. |) r7 G# C* d
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。# d; H1 x+ r; O/ e- j) W2 T2 y; [
" W- _' `, y) k; J: H$ K
+ X5 l$ V+ q! L; F' s3 i1 V) w
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。0 |( s# l: y& S) n; o
2 N" l3 c9 @. u/ S2 c' q
- |) K4 H$ F! `2 v% v; M, w0 v需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。 m0 m( b; _! A; H& X, T' _
% k. c" n, i" F1 s; Z
' N$ v5 l9 h8 f9 v4 X, t
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
' |5 a, x. x& U" c8 S4 w4 E
% ?8 o5 D/ [" |, W! |
4 M* @. m, R0 v' s" b8 {另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。8 K" R \- P( n& [
% S1 R9 U- d, B7 h; }) r9 C9 m. V$ D* m
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
+ i( d3 r* O/ E* m) X/ P$ l
' p& f* `* m K
2 S9 }( @1 p5 b0 e据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。5 S8 ^- X A( j& J2 t: r) O
5 x& y8 c2 F+ E: l- ]' b, b
7 I1 c0 [4 N! N- C- A开源的AI开发框架Arm NN
4 [3 q& e9 B2 V/ T2 ?+ U
% V) Y4 A0 }3 r4 ?6 V/ D
3 e# D2 J: L7 o; B. w% x. y我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。& ]% m0 g4 e, @6 r
( a9 T2 i: I. D% T# z3 O3 L3 P* I. |+ B- z3 y) _
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
4 ~9 c4 _" H$ n, `) G7 b
6 g1 r; ]3 ~! V4 N$ Q4 U: ~6 f6 [ F
+ b- X$ ^- M$ c B0 c
. `) l8 y/ i6 V5 w O) M4 }8 I; {( K' A6 A2 s
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
' S8 c0 C6 _, x1 [1 f4 S8 A0 I8 V7 I$ L# j8 H7 \2 y
5 Q4 M) j, W+ O7 g6 q
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。8 l' ~8 o: x) n. U C
& ?7 j- u n5 M v' S
* }& J; v9 ^+ x: U0 u7 [" F

. s3 |( }) q) `: d+ _9 t; k9 Z! G# g6 `( @8 \9 x) e5 _$ R N
2 [4 D5 }' U8 A) S+ Z+ y- C
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
6 g7 x2 `) M5 }5 a! R- p6 i! E! ~4 a3 m* {8 J3 p1 Y; z( r
9 E, K4 V1 j( OMali G57 GPU:为主流市场带来智能与沉浸式体验( I9 e0 a4 r; N; b C
3 B9 c9 q/ O6 F; B3 \( A1 |
& K! h; g+ P6 S
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
- N- @ {$ p; D; ]. R
1 ]4 X) Y8 H) R/ ?+ Y' M2 |
3 [: F" j# C7 R: c# S+ h6 h8 o
& z5 c% ~' C# y4 r k7 _1 m7 U* f' ~" m- e$ D1 H# |8 G
' j2 t6 w9 l/ [1 T0 v7 h8 G
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
8 v3 ^0 y9 G: t1 z" t) K# f
( q: v; W) ]# r* @
. K0 ]3 z$ G/ R2 uArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。9 V/ K5 V3 x8 f# {& v, o6 w6 u
9 V3 s. W; t J& x- h, r
2 O' i+ ~* C6 vMali-D37:Arm单位面积效率最高的DPU
* Y! l/ A! [$ g, @' x
* V5 `" p6 p E0 m% V2 ?# [" H
, d x) L3 b$ K j: w* {- h在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
; [4 ~; L$ L, I( v. B: r
2 \3 \: c+ q$ a& h9 @% _# ]% p; O) A6 x3 J8 Y

" K( c- }; f& U. I' j- F
$ o" c3 g2 C9 @4 t- u3 Y0 n! n+ F, `
& G) l& q4 Y7 p* l2 v据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
+ Q- W' u* d' y( v
. H* @3 S9 w. V! Y3 M5 `! S6 \' {9 ?
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
/ K0 _4 q1 R( X8 o9 w0 s( u
4 ]6 P7 f& @' r1 \! @4 Y, Q
/ c4 N* D! w5 I1 m5 |Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
. h7 V2 I7 z' q; N
# M9 t- {* W2 ^4 k( i! V- R0 D0 e1 h S& ? K0 I
Arm的通用型NPU能否获得成功?
: x. S+ t9 j0 b& s; c( ~7 L
' j# k0 f6 y5 `2 I! M, Q3 B# M/ I% U) f
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?7 h4 `' }- G- C: [3 p9 s
% Y: p6 e9 |2 f6 \
' m; A* Q- s( z3 f7 m& {
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
[, M' s _8 [% ?( R- n0 j6 z$ H( v( L1 `3 i
; J+ I! I1 L D U& \. }0 D) C- D$ V8 ^: _. X- B: [
. m* l0 V) W% d+ m8 q
3 }7 ]" _0 D# z) |8 _% n2 _! | ?2 l
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
{+ g8 R0 P/ w% h' q. Y7 C2 N$ ~1 L- B6 }1 Q
{3 F' U1 c! k5 ]1 ?
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
- g7 _" b2 A! ^9 o1 c& f7 s% k# p) S2 h/ [4 u
- s/ T" b, b, N另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
; ^0 `9 Y! a; t) d/ r4 g
3 }& V) h s* c+ h; E2 I8 s9 W+ _' C2 B% s. m
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
1 j5 U$ k: ?, w& R0 P9 w; U& c( X! C; p) }" f3 }2 B* x. E
( r/ Z) E# G S2 u6 |0 S4 o# O
* ^% `- [* O- r( Y2 c9 p; x9 t( C" j4 }1 W3 F' ?
( b; D/ x+ n* L4 K% n$ O/ J
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
# U: [) ~3 ?; }- i& q, f1 ~
* @# D' N' Q# D( z6 b4 L5 o2 ]) n' C, y+ G; R0 o; X
编辑:芯智讯-浪客剑
9 Q0 r* X' g2 [往期精彩文章
% ^& g& f$ K9 T( cVR市场迎来第二春:5G+VR云化将成最大推力!# C4 D) R9 k+ Z& L; s. T4 B5 h% M
9 K/ Z, ~- }* |+ D( C: n& M2019生物识别论坛成功落幕:这十大看点不容错过!
5 X, h& d0 T( t0 n3 V阿里平头哥正式开源RISC-V架构MCU芯片平台! Y$ D% y9 F# [4 `
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
5 Z* {: G+ z( _' G# O# A" T; b# X5 d$ O& b
展锐再推4G功能机芯片虎贲T117,意义何在?1 m8 c" x* X' i V4 D! J
* L$ {, u4 T- r7 S5 W历史首次!华为海思4G芯片Balong 711对外销售!
9 K( W& Q" w0 @( o: Z3 \5 H
: C5 t3 Q7 m9 U8 ?1 c6 T不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!8 _9 Z9 Q% @8 [* R: ]' {( K1 L
& A7 j1 I" P2 C9 Q' L
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
4 K% w6 @+ e5 x# Q) [( D! E
n8 H* x6 p% z3 B4 a可穿戴巨头Fitbit宣布撤出中国!
; @ X2 i7 B+ x. @; l9 `# H9 r3 s! g n/ k/ `) \
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询) a, f2 u4 z0 d h5 T6 x Q
8 V- g" X& Q' z# r e; Z" f( B禁令之下,安防巨头海康与大华的应对之策!. v3 p! {' p9 D1 \5 ~ p
! a4 L2 G# H$ h4 ]为应对RISC-V挑战?Arm CPU引入自定义指令功能!
. y3 i0 P/ e6 h3 ]& F, L/ X) r行业交流、合作请加微信:icsmart01
8 V, \, b0 E% t# ?/ K, p1 c( S8 I芯智讯官方交流群:221807116 ) y! A J: o* n! r
% f, p0 e% a+ O$ o: K
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1! ~0 Q. }9 {0 k, p! R2 H7 W8 l
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |