|
|
3 K1 L( e4 [, D! o0 L/ i R$ [0 K
/ w, l5 l8 g9 `! {/ B- m+ Y/ U+ G- t8 @7 ]
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。( ^8 f! u) ^- H% W) U
# E" q* v% |- q- o+ o
% U; y" O/ |9 V: W" B9 p- h# c
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
: }3 d1 [4 v: U* L) h+ C7 u" {! ^- {/ D
# W1 R; w3 s8 U; D9 k
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
* A }# |& ^! M; o0 p6 d0 u! B. z! I6 A7 J5 n) z9 X: C
9 C f8 i5 P4 G% A
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
% n8 f6 |4 \, r/ f! |5 u$ c4 v
9 y% p. j6 z% l/ c6 s- z5 P5 F/ l4 n
. O/ V2 E: w4 r& H( Q5 T5 q& N* |4 J
8 B! z9 K4 s1 K
5 U I; W8 Z: K# c此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
" [* b3 ~( a* _3 v' T, M6 i/ s
: r0 p+ }2 G- ~8 q+ B8 p* m
+ y8 i" w6 D+ e' z& d吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
- n: e. R2 ? w: F' K: o4 U6 t. t% d4 ]8 U1 I2 q& M7 m- Q
. N9 J; } P7 k A( o0 o
加码AI计算,Arm发布Ethos系列NPU IP
% d# S0 U) X( R, d! y" p
H9 p. u& x8 \3 f [& E2 k" g6 I" \4 I' }
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。 l4 h! p% t6 q2 J G& T }* Y
4 e( @1 W- P: Q. r! z9 `( Z3 J
7 J9 E4 c8 G! ]# C1 l; T% [! |# q: J而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
2 X& w3 Z0 R5 A! D! x
: G( s" K1 e! R( Y+ P, Q
% \' g+ r" z. H; o3 ]但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。$ q9 \! \4 O0 C2 ]+ g {
* Y" ?! v0 ~& E0 p7 k% |/ t6 y
2 g) J% j$ y/ H8 M# ~$ a$ W/ I; x% Q在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。5 c- }5 m9 m( p# \ t6 ?: E
. n; O; f5 m i$ E' [
& l% H; h2 V; d1 Z" d
1 s; a! B) J! e# l' Q( k# {% o0 x
/ e: \9 h+ B) o
0 y% w( f$ D$ z2 E1 u- j - ?* y$ \) L0 V: H9 s
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
5 n, A' @. F& f# B1 r0 V/ W+ o0 R5 N
( H1 o- b) M! V& Z1 S# A; j! Z
& a4 m( v' _5 M- C; s
/ p; ]/ e( n, J4 F$ [
: A# l! q4 L/ Y7 P4 D. G8 {! R/ n
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
% k# S3 C7 B7 L
3 L* X8 T5 M" ~$ H6 K# T2 p+ l- ?/ a根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
& [: g5 @) w( S: y# f/ m- `$ h( _4 q1 A& }9 u4 h
) W \3 V$ y+ i$ v9 e4 J
! w# c3 |1 w4 U7 w; Z在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。- m; J2 {% L0 {2 [5 h; x2 B
( s- Q- W y8 A# d/ z
+ P3 \1 h$ E/ t0 I0 V* S2 T* B, N: x在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
: g+ R# J; t- @0 E" `6 {9 L$ t* y1 a7 d# i
- L; Q: j( h7 _9 r+ V; K从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
0 }3 Y$ D) l0 X+ T. q* d
: y% O# l( u6 }: b+ H; l+ X3 ]; y
: `- U) g$ g4 n+ S# c/ g# A: W9 a) p需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
% H3 V& @0 d2 K. Q: {
8 F' Q/ K) c- G( u" |# o
/ @' } \8 f& ~5 _" @* F# }Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。 ~- J% I" V F2 U; A* r
. ?+ y% ?9 m, Q3 \& X- a# {5 i
4 g& E- ~! L# A$ u1 S* {8 @* ?另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
, S. b/ q* e! G; }- l" k* S c1 ~# n. C: c8 N0 I
+ e3 E4 p0 v3 B- z# F4 @0 V1 m, V
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
6 h4 ?* w) i6 ]$ Q% r) }! q. q: a% C$ c3 t' `, A% F
/ r; l4 i* z# K+ Z( [# j据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
: K5 F0 z) ^) X( D! A8 j$ C( u6 \/ D4 y9 X' p6 M' q
7 y: m6 s' k+ F开源的AI开发框架Arm NN* z# f- x2 L2 Y1 I& y Y
9 K9 C- [' U S' D9 e( y3 Y5 v* l- e2 s0 b* d7 N
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
3 a% T A9 z, ]7 a) Z, o+ K
8 |3 q# n I8 |, j' z6 q m9 M) |4 `
# h! [% f+ `! D- L- `' z! V1 ?9 E而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
' \( Y* s6 w6 i- }/ D; E, _
* a3 H4 ^* v! B, ]7 n' v% i; E x; y7 O1 f2 t' x" C* z

9 U2 ~' X" y0 P1 [: V I- K0 `; I4 q8 f) p$ k9 Y3 B% i" g7 Z7 C
; r4 u; n' P+ {! o: ^0 Y
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
* j: A" l" n* r# c& L% P5 v9 c4 E& i( M) I; J* L( T$ R5 z j
# O1 b) g ~1 M2 p' K& O0 mArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。3 [6 Z b) R# r# H: S5 P
! r1 n t& l2 n1 r- l$ \% D2 Q$ S7 R7 m% h

8 @# b, p. K. D
) S& x: q) i7 O$ A
% Z/ _+ b" j9 N1 x8 @此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
/ S& _/ j5 ]' W9 x5 O3 K0 T* g$ i
- y/ F) P, x# v( s( F/ ?. e2 hMali G57 GPU:为主流市场带来智能与沉浸式体验" D* \( L9 C3 t5 M( {- A
- j: v! s. B0 E* F1 V2 [
9 _$ X5 d3 u4 T, a. v+ P今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)' Y' k; i0 P9 D2 g
1 y, j( x2 k6 j" {; [
# s1 w$ [$ J3 Q; s0 P% _ / D/ X+ q/ d' S7 r- w6 @) v
9 }& e0 s1 d U8 ~
7 T$ [0 w; f* _2 s0 T' i1 N7 I. U据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
' V( E. u5 n$ g% w. }9 N& Y& F* ^' d& z E; j" Y5 \1 e; O
: g/ p! @1 f* `# _0 d
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。8 \; T3 `3 N: z/ y, @" t/ |* O& j
" P8 a/ E* W/ p- a6 v% B X7 H' n: y# b+ s9 x
Mali-D37:Arm单位面积效率最高的DPU
/ H5 p- @/ G$ Q! s+ I& s$ f
" A" q. J6 { X' y O# N: @" F
1 r+ G& C2 T- |. _9 e0 H$ W: f在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
$ D0 s3 ^+ ]* j3 w& p, `( y
& s, k- y% e. c. D; p' c
/ d/ }$ ]$ j7 M " e) M/ s' J, d( \- s9 Q! T' K6 L9 L
, F) l% i c. u% N( L# S
' `, s. B1 X, [
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。: ?- c1 F& w$ i K; w9 `) u- q# n
( i/ ]( M: U! A R% B) @7 N
, @4 ]: H1 @8 [) D8 j. I0 L在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。% U4 ^) M( O( Z- {6 S
0 @% c4 Y" `+ o$ j2 |4 v( t4 `/ n
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。$ p W! e1 e$ i6 C) G; i
/ L6 p$ K* F: O2 M
8 P& y8 ^. K- I% m6 kArm的通用型NPU能否获得成功?/ m/ h4 @1 \. Y% J
5 r. A& o z" { @% f, P" ^4 P
' Y s1 B Y" R r4 ?从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
4 E2 c9 E- _1 t n+ X+ K' b
2 R4 j! R( X# j; R# t( B) s7 R" }; |: W5 B$ L, X
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
9 ?% z0 {( T) V5 }- U! h5 P
) h0 g: X6 Q6 F: ^' c5 \( x3 k" d7 d, u3 H6 D$ f, T
3 [0 U4 h0 L% V
% N* @/ F* ]2 X3 Q9 F! t6 |" f
g ]. R5 u, d+ X4 K2 d
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。7 m/ @% L9 @2 i$ U% @- g' i0 Z9 V
" @6 c. j% g- Z4 r6 M t# v; c0 q2 {( E+ H! Y1 f' T
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
/ r% n2 s- a E. D8 [- h. s5 Y* s
/ {9 y, W3 n6 a另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
9 ^0 L2 M- N } `& J8 b3 ?& O7 K9 [; g9 m
/ O) _& P8 F' E: n9 l
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。5 l0 h; \. C. m$ Y% u' q
2 K3 x! O. f0 Q9 T/ U. `1 \$ j; X6 m- _
7 x6 r# {. y. {, e; o1 b2 q
1 d5 m! X B; U1 `1 t
9 t; {0 A9 j% t6 l5 ]: m- J+ M/ f* S, r K# A$ A6 k: _
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。5 _- f) {' |) a% V
, E( g+ }, c2 `/ i- l2 e+ L0 P, @6 b5 {9 V2 _
编辑:芯智讯-浪客剑
& B; C3 \. ~; k1 W" ^' E1 ~5 F往期精彩文章
6 P6 c" M6 z! p, {% H+ `; z: T& k6 kVR市场迎来第二春:5G+VR云化将成最大推力!' D+ r3 {& p# @. K2 f
) I( K p$ }' X' J0 U: }2019生物识别论坛成功落幕:这十大看点不容错过!
+ S; V- O: d' d阿里平头哥正式开源RISC-V架构MCU芯片平台
$ o V7 d. E& l- F( W" |0 m首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?$ A- e/ {2 k( B, f3 `
* g) ]. q, ?' o6 w' G4 d9 o
展锐再推4G功能机芯片虎贲T117,意义何在?( T2 T- H* S& i: P. R4 ^
3 J( _2 W/ K/ g+ v2 h: C/ a+ |历史首次!华为海思4G芯片Balong 711对外销售!4 p5 D; W8 t5 v: q1 }
3 x4 L/ z6 ^+ a' _' c不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
: a" Q+ {" Z( g
0 {3 c4 A/ v3 ]4 O+ E巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
. _8 k1 b$ x# b1 t. I, v
: ?! s6 Z, B; {$ J. `" \可穿戴巨头Fitbit宣布撤出中国!7 ~# Z3 Z, |6 O5 }
' ~* @6 _: s) W$ \+ |
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
9 V W7 ^0 p3 A, c F' o5 q( B _$ u
禁令之下,安防巨头海康与大华的应对之策!- k, K7 ?+ T. J+ _5 s* s6 [
; y' N$ Y7 c. b" g6 k
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
# ^& A. p5 R9 u+ y4 W行业交流、合作请加微信:icsmart01
7 `* s4 n% d u4 x( J) P" n芯智讯官方交流群:221807116
5 Y7 f- A( k* q* I8 J" H e1 K1 T. g0 U! y/ h
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
( l, \! x8 z. {免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|