1 z& [- P! h, T# ]+ g1 G7 d
# R& b" c L' ^
/ h `, v% J% p6 I3 u10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。; M3 X2 R% r% F4 a% u6 u) ]: d2 K
% z. f6 h I6 C8 z* W! |7 K& S
; E% C$ S5 s3 I8 x7 G7 m% E% Q$ yARMv8及后续架构将不受限制的继续支持中国合作伙伴!9 l9 \. A, B& q$ o
8 Y* R& l# H% l- w# u
0 w8 u0 g7 W/ X9 t4 d: y今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
: l, m# J0 S# x5 K. z
3 n7 a0 t6 h" \: K9 e
- [. V0 g6 ^0 _5 S- I1 Q4 T$ c: z10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
: m1 g6 d2 X1 K w0 A, v, Y. D) ?: e0 g
# Y$ h$ y2 s+ F9 w; J2 k: l* g
3 ?: ?, N6 Z+ m `- B% V6 E
& K7 ?9 p/ P3 ^( K% A
( s$ [) f" `, ~1 Y U
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。2 w5 t* T- @- E% C/ ~
' L* l% L& v, h- G* V0 F) s
2 Q1 X0 h" v, w) B吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。4 m+ j9 k9 B' Z* j1 i7 G
) i; u# S7 t" i4 k+ m ]$ j1 U
2 C/ q8 k; k2 D7 t7 d( D5 Y加码AI计算,Arm发布Ethos系列NPU IP
]! c. @6 Y9 m: y3 B' }6 E1 ~0 P) a# ]6 I5 W& T! r4 Q
; O" a& s; J* X0 s/ c e, c: ~1 D( [根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
; U8 x/ g" A- v' L4 C @; L* h6 Q K# e# L- F: y
8 s9 S% [* i6 P A7 |而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。 z1 |- _2 e1 O3 P6 k& _: U
B3 F8 ^) N, T. ^) _5 G! H
1 V% L5 |# T3 c5 D0 T' l但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。$ Y1 Y6 ^. w8 T" O* m
$ f7 z6 M) [" x" x
8 u3 p9 q! N- v; Q6 R" z& a在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。# @2 j% z; c. F! b: Z9 _+ G- k
. K* j: J" G% B' J
! G! c9 Z0 ?1 ?% w+ S2 n7 h& C
) k1 M. B3 R, b8 e& @7 W( V% m, J% y" ~
+ n( l& f# |0 K% y& }) M
2 E, X- S( b! d4 ?8 N0 B1 \ 7 e/ ?& j, F. M: |( u% C
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。# a2 l' w' O. _2 S7 G; ^8 X ]
( r1 h6 y0 P4 Z p" }; B
! l. k2 v8 b/ N" p4 e5 Q# a
1 ], d6 K4 H* C. q' I
) ~! o# t0 h5 L) r
4 Y% w& G. w' A
0 O) W% y; `( }% u, y1 t0 IEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?, G* s. U- w* p4 M# o
5 f- W R3 k. c9 s$ H# r1 H# Z
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
5 `: i# q. D+ I3 b% Z
3 }8 C5 F8 [9 p* L2 `7 ^! }5 [$ R9 O5 V& L& s0 l1 `. ]
: _) ^; G+ C/ s7 R- v2 A& E
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。# s% U+ c- ]" l# o! m; c
) _0 l) C7 \0 B1 X7 R
' ?$ V# Y. G1 ~3 F8 J$ d在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
) j! {: m7 [2 v% A1 ^8 J
0 d- @+ s2 p8 N W6 x2 o5 K5 W( x/ W
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。( I$ n# G [. k% U- Q# q
( k' X" f/ e9 z: ^2 x, h
4 e- e _: j7 P1 s: b# J1 ~1 X需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。4 U, o' H' F) M6 _! h
9 L& X1 f: q, p6 a m
1 E# p/ j2 c/ I9 C, lArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
3 l; W8 g+ R5 V9 _1 i1 g N5 }0 p0 Q9 T/ `$ T4 b% C
e2 L1 f5 d7 h* t8 q
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
- W; j9 @8 t* X- C! M; Y& P) x" z6 n+ a$ G9 k
% _! b" K/ |! v! QArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。9 ^: Y' S, V0 ?% b# _/ Q$ T- q
2 b. O; @6 i; u& A; d8 A7 {
( N6 Y4 o6 e# n6 g' {/ k7 U' Z/ o
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
9 B% j7 B; a- Q$ S; p# x2 z" v$ I' r, `# U$ |* W# ^: b B$ J
7 }0 B" t) f( B! Q开源的AI开发框架Arm NN
' F5 @. n* F+ }! L. G$ [" x5 f/ `$ \/ i% K3 h5 t! A4 a# u/ i
4 ^+ r4 k/ p3 p% S我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。8 U0 R, S6 A5 v0 P
8 y) H- M/ K+ Z6 f; G
/ Q& R( _9 n L/ o A而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。0 ~' Y8 p7 U' P! P' g% [7 ^
. o# \) y7 I& j' d7 O/ I
# E+ N' j8 i8 o
! [5 |# b( k0 ]* p$ o" T" w) O' V6 R3 d6 [
& y8 N, [% t& n
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
: d8 Z8 t/ ? U- S) o* f: I
. m. ~4 w" v- A, ~
! D% q- ?5 @$ Z1 W2 MArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
7 j- B+ \* E! x# ]/ u% B0 D# v' k' S, a0 e- X
; j5 ?: U& R6 R+ ^7 G: X/ S0 L
0 ]" P f! X% ~% z$ @% Y$ \
, r$ L1 @8 Q1 I
" e$ A3 Q% v s& | R此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
6 y7 G. C2 d1 `3 ?3 ?) M3 O% d: {% |3 r7 h
K: l3 C" w/ ^1 Q& Y& |& v
Mali G57 GPU:为主流市场带来智能与沉浸式体验6 `$ M3 ?* v6 @, A8 [; v/ W
0 A% j- j! M2 u1 ]: F! Y( a/ s- ]5 {) ^& p- q! ^" P
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
" m* z$ X; a7 v5 \! R
9 r" ?! x. x* g4 ?; H2 B* ^! _( ^- W- R
4 {4 F: @+ I0 W9 u
8 o2 t# V: X0 j1 o
5 E6 i- z; c% T) ~据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
' c% m$ ?0 E7 T; _! }
% K" V' j8 d! B" d. }2 \6 P5 y, L
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
! X) t( _ u: e) d0 l0 j4 H" ^* r% d8 H
, a' ?" b3 l! I6 K; KMali-D37:Arm单位面积效率最高的DPU
( J$ H* @+ N- r7 @# ~' a8 m! v7 k: ?8 O8 F. D0 D S4 K9 v6 i: _
8 F- q$ j. o5 w5 R$ K
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。( a, Y% W. t9 J* H; d4 U
; u2 I! V6 ~4 d# W/ z
" h, Y" K q; R1 c
1 `% f! o$ T9 b
+ ~5 \3 J. m `5 q+ \" s& @$ d3 r* O" r* T3 Z4 s: A8 p: [. g
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
1 B- x* b! l# A2 M" Z# p3 z
% W' e5 v9 _! E& ?2 {* t, L. _- V4 J/ @0 K9 l+ Y: t* [# p4 g. T
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。: h5 \) p# ^$ K8 K
9 {- B; D# C# ^$ T$ I! |5 f- D
# A/ [, @5 x3 S$ ?8 ^& x
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
; V! \: z' Q1 p; T( C3 O, D5 m1 v0 M6 O) h& g1 y
* O/ ^: f: @5 M+ l4 t
Arm的通用型NPU能否获得成功?
- d0 ]" P4 o: `* P$ {! \% D. i2 n% j; j @. |' C, s
9 ] w2 B0 R8 S" n6 D
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
7 C2 F( A$ x4 l* x: ~/ z) X! L
4 q, _- W) R7 d. g# y& j: p+ [) ?1 x- q% C
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
% X. I9 T3 E4 R1 P) V, _
; U- o h4 j9 U( |6 ]8 u5 g. |
+ ~5 n, i+ i0 Q, D( \3 u4 H) o! d0 l; q2 s. R6 r
! |0 ~: m0 k- C. o3 }4 N, p
) u9 `+ n1 n3 b& A
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。4 A! k: P1 |# w- u0 Q
3 X( O4 Z7 ^9 V' o7 t w
7 q$ l3 U- Z5 P/ V' \
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。3 l/ s6 _" {1 S J5 ~
& A/ T3 @5 g" v0 D. ^3 K
" E( h& n: d8 K7 J9 @6 b; E- K
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。/ g: r5 z: c9 u$ {
4 F# W+ }7 G# x& ~
* q; S4 K4 J. I. U; j- T: D; H
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。$ W% L) j& ^. l Y. n; a5 o- o9 {
9 L1 g. V. @7 T2 h2 V7 _' \& Q! b: Q5 N0 m# Z
/ R- _9 ]4 j# f9 [
6 a% u( \, N# A
) |4 i. A7 a3 W* T+ V% Q
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。" R/ q- M* M( @* D) [8 m8 s7 {: U
! C( |6 W }: D# g" @
+ b% N( j2 ~3 H! N4 _1 p% n
编辑:芯智讯-浪客剑
* O: a# y, ~) m* m! j往期精彩文章
. t0 S% L' g+ g5 i- K) Y3 ]VR市场迎来第二春:5G+VR云化将成最大推力!& W$ I6 X6 `. ?2 w/ n$ q
3 `5 [. A+ r" C: ]0 V
2019生物识别论坛成功落幕:这十大看点不容错过!
9 M( H6 h; I# }- r% H. ], ?; r9 z阿里平头哥正式开源RISC-V架构MCU芯片平台$ b a9 `7 h, w( ?. p" _/ ~1 U
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?( k5 v) D: t3 n: s5 h" ^ O8 g
2 g/ B# n* A! \
展锐再推4G功能机芯片虎贲T117,意义何在?
7 T! V. A( R5 N) |; m! d
0 _1 V" I+ Z+ v" Z4 U历史首次!华为海思4G芯片Balong 711对外销售!
1 T, c; t/ U* P- Y+ X: A7 j! d# X4 {9 x1 x. _5 t1 J) |( M* \
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
5 U$ i- M b& S' n) K* a; T: {$ ?; D3 o- b5 W( L, ?4 J7 d/ D
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!$ y# L7 g$ b- d0 q
5 W& O! g- t7 y可穿戴巨头Fitbit宣布撤出中国!( u& N/ n9 _$ O, K
. c7 G- q4 d" i Q# q! h( W8 G
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
6 B4 i; g% x' M& j4 Y( R, T
3 X4 W7 ]0 T9 n8 _4 j$ c禁令之下,安防巨头海康与大华的应对之策!
7 j7 A, N$ a$ d* q, y# W% s9 h7 Q, I$ d) j) Q% l0 E% F$ W
为应对RISC-V挑战?Arm CPU引入自定义指令功能!$ D: i& b) J7 Y
行业交流、合作请加微信:icsmart01! I, I D4 m! H. p: \
芯智讯官方交流群:221807116 5 r% G4 O/ b2 m# V$ e6 W
, |4 ]5 U' N2 Z) P
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
& K4 H# S3 o2 k: P4 Y9 R免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |