|
|
3 v, Y- r* h+ s% k
, x6 Y! ^' i" }9 r) F
) w* F& V, C5 c. P$ l' ?* W
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
( ]6 x$ X0 f: {9 a
; q8 _( t1 P) `( U9 Y( f2 u8 }2 l! a1 r# j2 ~6 A' Z4 o8 c4 X
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
* H/ Z; A2 F9 w! D6 k/ D' S# A- K% y5 q
, E* G- M% C! m- T$ Y; b# W0 n今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
% G* _, e. L* M5 J0 n3 x: K
7 o& ]& r" r* J2 ]! J& K' x( m# V% ~% e$ M% ~: r8 d+ y( ?
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!$ ?' @8 D& T$ v" k+ L
( A+ p7 I W& W- q# l8 }: y$ g y
0 O8 {' a' U( v
3 |- C( e" G( O& H+ @. p7 F( w
& y, u2 `4 D" ^$ r5 {
8 Q% ~1 x4 M7 n6 x此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。1 @- h8 Q1 v" J# ^0 a- o
' g1 q- N2 x6 ]( Q0 W: Q8 `
x+ u9 y% M( V8 P! G, `# r! J9 ?3 o. |吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
/ d5 y8 n x# Z/ P6 u( u
% l# b4 e1 i% j: W; \ p* T' t1 G# n0 C( m+ p f
加码AI计算,Arm发布Ethos系列NPU IP" A, r" R0 X. s; D
5 Q! h" ]2 t1 Q/ M; b/ s q+ T' M) H c3 I" o' L
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。) v3 A0 V. F1 T. [$ z. y3 X" v8 |% C$ O
. @" u7 l; W+ L+ X4 q1 r) X. q: }; s/ t( |7 [
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。* t# {( y2 u# g8 T: ? g" X% B% J0 f
- i& U6 z- {- P5 i# z$ n
5 l' @6 ]: V! M但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
: Z/ q; s, u( e, z. c
# f! \5 k! h6 P; V, y3 W. I" `% O7 \, ]$ s2 T& G1 i
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。2 ? K- W9 _" N1 x F4 a3 I' w1 G
( d0 ?8 y3 T0 g* B5 w! p. H" h) @
7 L7 C# l0 O. `1 Z8 j& d5 P! R7 c* j/ B6 G' a& Q6 E1 a
, d( |/ p5 P5 z( f. U- o2 \9 {, J) f- }( U2 c$ a
) i D. A* A+ d* W
1 T0 s4 _- J0 r/ Q今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
% f) l k7 s$ E
9 |, l$ [0 i( o2 E1 m4 y. @& R6 [% d- `- @4 X5 u0 X1 x. `+ h

5 f+ Z2 Y5 X+ S4 {' Y9 M6 h ! W3 O: A Q" Z
! {. ^" f4 |$ t/ U% p2 h1 x N& |% ^! V, ]
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?( E5 ^; h; v1 K" {6 @8 B+ ?

! I) }* s( T/ |! M5 T! m根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。; W0 e; x1 N3 ~7 T
$ c$ X* _; d! L# L5 y0 V$ L/ k* z$ b8 ^
- R1 W/ t* {, U5 ?& x. ?$ t" {3 U( b: D
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
' r! H1 J' {4 I# a" B2 Z6 q
- k* ?# L9 z8 o8 n
" w# ?7 `+ B" r' g' G! m在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。( W% I7 f4 w b9 d _: o$ C8 ]
6 x, q K( I3 y9 {# x' l) b1 i8 Z; ]8 t+ a# ?7 z; j5 ` _
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
: M4 F/ L2 H9 X3 e4 W3 L3 C& ? T2 c7 S0 d
- d8 w6 g! {& u9 \, Y5 J2 ^需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。3 \" k; ~+ P$ b. A" [2 m0 g
; Y7 A7 h- O* Z6 M% U4 ]. l
( e: i; x r' f0 L, GArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。3 L& Y' w/ a! }0 ^- e5 n5 u
) c6 }3 ] R: Q& u- A1 h, P: Q: |; L$ h ~
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。$ T3 k& ?+ p. }
. s! b( f1 K: L' i* i. N' ? |, U4 [
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
* T$ @4 y; Z8 y" {; z8 B6 B( ~9 i, g `+ F$ y/ ^' h
/ D- ^ T0 f6 O据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。6 o$ ^: s' F' Z& h3 y6 x
9 Q. h9 e' q3 |
0 l5 s. j; G1 k& X! U
开源的AI开发框架Arm NN) m9 \% }- S. A& V; y& p
8 P2 N( U" l3 T# h/ D5 ]# P
! h1 ]6 H* ~# S$ b# X4 q我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
1 j0 [# K# v5 [2 M, }/ p( H) N; s2 ~( L7 z1 [
' H$ B' O& Z4 i" J0 ]% k而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
( v# ?8 I8 v; J6 y! k, [8 S$ m1 q" y, X
& l0 g+ w7 M ?$ R& Z# M2 ? 4 e% W, l8 k' o+ g- d# @) u
% V' h+ F4 G. n/ r, t
1 G3 P9 A; v$ T6 J& r J' k- ]据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。1 ~ y- G% `: A$ S
: ?1 d1 b; T- X
5 D4 n: S# M: R6 Q$ [
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。7 k9 D% P! R2 k! n+ X5 e
6 e" \$ U( y! N3 u* w
! [7 B( }" k* i5 _6 T9 T Z ) w, ^0 C* L1 K( _
: ]; Q8 g7 f0 Q4 N8 e
4 y; }4 |, }+ X1 {/ h/ j此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。5 I6 }* ]/ u1 C
( R# }0 I$ x5 {3 n
1 \1 S8 Q5 D5 N. N. Z" o
Mali G57 GPU:为主流市场带来智能与沉浸式体验
0 R$ n, U/ O1 s) i. {$ W1 d6 W5 N, M& S- t, t% C
5 O3 z. a6 B! ` x$ T1 j, G' T7 i% |
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)0 B* h8 D1 Q- M$ W f
7 U% B4 Y; L$ R4 `
1 G0 \( x+ O: X% i5 H9 ^; |: v0 z 0 B% }# [+ Y# g% F0 Q1 e8 q
* b* T( L) p& a5 f) S2 `0 L
2 I4 |$ g7 D; D2 P6 r4 @据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。0 H4 E3 y: G$ E: K& W6 q7 t
- x$ d: B9 E; q% F
5 `- \( c; p! i2 t8 M& T X
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
, P; G3 {% ]7 j0 X. ?& j% @( b) T/ v, Q* |' \# c( V* _5 g1 ?5 D
" h6 \. _, o0 d5 \# fMali-D37:Arm单位面积效率最高的DPU$ l% e2 m, @3 m% E
B' ^1 S4 p* F& i* W" _9 B) h5 C
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。6 U9 P& B8 e' A1 K
* K: d' n: e8 A+ D
6 i6 B7 l5 ?) T9 s: d9 z- S. {
2 a# w x# b7 {& o: [3 Y1 h
6 @' e8 A. S& f4 R: K' U$ J
9 X3 y4 M2 E+ ?& x6 Z) a3 s
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
% v& b1 K4 J( G! C1 i' l, @
r2 b6 E" e3 b, s
4 @7 H' T/ M5 e在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
' `% M6 M/ B9 Q5 ]' ~* E0 L9 z" y8 a( d. d9 Z% C$ o: Z
/ F, r" p! K) z: p# x \: d) n3 e3 KArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
& u# q; C- G3 R7 E! k }
/ p+ K1 _& s+ s/ u: u6 f1 i' m: \# P" U( D
6 n" {' q9 f. S. ?2 b8 ~Arm的通用型NPU能否获得成功?
e8 w) C5 N4 R& D7 K- I1 g2 k6 M/ i3 C% N7 H) S
' l; `" `' I/ Z* S' f从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
$ X# h, \: J5 T, ]8 Z) ]: I9 S( ~5 z9 U( Z/ z
* Z+ R1 A( `2 M. O7 A* N* M5 k对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
3 \) E* Z4 p- N2 o3 b
! m7 ~! h& g/ A9 g( _6 A: H+ s! p* M
5 r/ J" c. T3 C' l- q) a
. a8 e1 K3 D7 L6 x8 ]" X
4 k3 T* M/ m+ T, S
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
- @; s/ g! r0 j$ |+ h$ Z6 F1 A7 o
/ [0 u9 I* P/ p* O% E8 V2 B6 T6 C4 i- R2 i) v( V
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。7 @, z) Z" i. w a
, Q5 j6 [9 N4 D9 s
: \7 W' k, o; W6 x另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。* m& Z) X% W/ h1 f* k5 B4 \
, K# G) Y P) C9 S/ f$ k- s: @) C4 W+ p# [& W2 N! T. c+ Z. d
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
2 J' n8 s1 z! x1 Q3 q n6 c
( M* P; B# i, o. V- X7 _6 T, |" t" {( X4 @; j) g8 [, l
) W: O/ ~( L) i' r8 Y0 G# f
' n# B+ l+ y3 I$ _) M7 i) h2 s0 o
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
( \( R6 C; v. w
, ~) S; E. e. K0 j" r) W8 h: B# [* e8 m& s2 [4 }! E; b
编辑:芯智讯-浪客剑
9 i% M, b! _! g# y: C4 [9 y9 H往期精彩文章
! R( \0 f5 }) P& G" S ?VR市场迎来第二春:5G+VR云化将成最大推力!; h0 W! o3 m( @3 H! ]; L
" t+ h. W3 [' s# b+ s0 n- T: s2019生物识别论坛成功落幕:这十大看点不容错过!
) E1 X7 n$ @& R+ i- E [阿里平头哥正式开源RISC-V架构MCU芯片平台
u, ?- O' I1 u% z6 |0 H$ G首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
3 C+ D4 w/ Q3 k" D7 \* O/ A, U$ Q: n2 s
展锐再推4G功能机芯片虎贲T117,意义何在?8 [/ K% `/ K; z E& @
- V3 }+ _5 _0 g1 s6 m( f0 B
历史首次!华为海思4G芯片Balong 711对外销售!
: p4 t5 u( J0 Z
6 E* k4 K. M% Q2 {! E' Q/ q不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
0 f7 e3 x0 L) T, z/ d1 v- y) p
6 v. |1 O: g8 ~" ~* F巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
9 `8 `! L7 d, D# o' E; a. f
8 {2 s7 n+ [1 J% O可穿戴巨头Fitbit宣布撤出中国!1 k1 `; b/ ]+ S, s/ `
) C, d, t6 }% R# C0 e- n6 g收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
% [$ t7 o9 [" x9 I3 ~0 S/ \8 g3 B4 Y
禁令之下,安防巨头海康与大华的应对之策!
2 D# q1 Z; E( c# o) Z
2 n# T: M9 x: |0 b为应对RISC-V挑战?Arm CPU引入自定义指令功能!
4 X) W* h3 c& b行业交流、合作请加微信:icsmart01: @+ p- D: @. g9 D- G c
芯智讯官方交流群:221807116
7 y1 l# T9 ?% i* ~% l: @% M# e, x+ [# ~' `: m
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
) j( P( b3 ~# p7 H( l免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|