|
g) H3 n( w$ x3 D9 V
+ b- W. f) w3 m4 ]
$ F& q7 z: ?3 u10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
% Y9 a) r# C V, J2 i2 L: Y. q
+ K. }+ I( w' [% |0 wARMv8及后续架构将不受限制的继续支持中国合作伙伴!
4 s# d+ I* v* i' e
* n x9 [& l7 u) k2 T8 l
; c; V6 ~( w/ }今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
& ?0 U' f4 ~6 { h; `
( M3 r4 p$ C0 u) D6 {. e( c o1 b# @& N3 E
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!' X+ U* `, Y; d8 z9 T$ ?* |
0 l- B0 }8 A2 x7 ^8 v
$ E* m. r# X. W! Q0 [
5 J& d% }* r" c9 F$ Z) T8 k
; u/ ~: c/ d) q7 I' ]* L6 x
% Y# Z9 c G2 h. F" Q+ _8 w此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。" e$ D- A& {- c1 u! r! b
: Q- w) p% }" R, E$ A; q4 K/ S% A% x8 S7 f, m3 r- o7 p# c
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
, W+ ~6 U9 u5 X( ~: F( U- _; J. r: t$ S- K$ R% v. Q. k) i
9 l( }9 @( |9 B加码AI计算,Arm发布Ethos系列NPU IP' H) e0 J( x: ]8 Q
/ F4 T# C0 d2 T0 y! s
5 ~/ d$ ~8 I5 `2 ^
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。6 H. w. h& [$ u$ U
, J: L4 }5 s, Q. J$ |6 X9 }9 Q; C/ W/ U" J9 A9 e
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。8 a4 W) `& K6 `- x4 Q0 |4 ~
' b, q1 S# J' W4 V- |
" h U5 m% }0 T' z7 ] C' l2 l' t但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
- N" z3 z' X; @/ \+ F
5 s' B& Z1 [* ?
}% ^0 o0 c8 f在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。: C7 D: E. S( F- l# G
3 n1 Y* E) u6 v! ?3 D7 g# z
/ Q8 |9 f0 f6 B5 D# }9 I8 M* _) s) R; v+ p% b3 X8 v7 S) _4 B0 Q6 [: Z
: b3 z0 ]) L7 @, `0 O
$ E& ?, b8 P1 b B+ A0 h v2 @4 E$ G F
$ c4 a: g- k1 g+ m# Y今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。8 |2 g3 c) x: Y! V
P; B$ _6 A J m4 Z
8 m% y( S# v' G( b& W; v3 U' z* t
u& u! z, A( g, H: ?
; H0 ?+ j+ ?- V l# Z2 g" V% C
6 d( H) L8 u! L U+ F. N: n# C5 P/ d( O2 W; {- c, e
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?; n: \& ^6 g2 }% i
! H! L' o/ T! R; ^( H" _5 c/ \根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。6 x, f; j) c8 y8 B) \
5 \. }5 R3 |5 Q% ~6 g0 R
$ A5 I8 H1 M' @/ o, g' Y6 v; ^0 L, n. i
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
5 o ^, r% s! _) {; c+ g/ h, f% e% G. ]/ Z& u* g V, e
! ^% U7 e- T$ z- j/ d在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
8 K. W% @4 s. g* ^5 q& c+ |) j$ D% F6 G2 d! h) g' M; [2 P
/ x ]5 [4 M6 q' O4 A/ Q$ }8 g/ A
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
2 W8 o% g& A5 Y! ?9 W
5 ?! L4 {2 x, a7 _* g% u1 _
0 s8 D' t: I3 q6 t! G* s需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
, D9 S6 { a {3 P3 n) ?
/ `4 p" M8 M, G$ Y3 _9 u c- _7 p. I0 `
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
* r: j, x& x' {3 w/ P; m
; g" p1 c$ y. ~7 q0 p2 N: N4 U$ C& h3 ^5 P$ ]
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。, j: a7 y/ h7 E' U
8 F& O5 h+ z1 O/ l, e3 F
( }% _7 w8 F, i% s; w; yArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。, N% ^/ o* y1 s: k0 v8 R& p. ^
6 }) @ r* {9 k. _4 Y1 t- M1 V
9 B. \' I6 d8 S据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。, E7 Z. O. Z& I# a
@& ]2 t7 v$ o
- ^* v& m8 [' ?开源的AI开发框架Arm NN
$ Q, h$ ]& J7 f; W' G+ c
3 J+ s+ w, l4 g$ U7 |! j
2 _6 }4 w9 I& u1 F我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
$ @, H* r0 {1 {0 S8 {: ]. P; O& E' A' K; F* V3 W' j
: k% o! P4 d" ?8 v
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
2 Y8 [2 m# @5 \) J7 w% f- ^# i
/ P& M( u" ]# ?3 k6 ? G7 W. o1 K- U, ?5 i3 `0 n& T$ W
( j8 v7 \$ q v! S3 X" W
$ ` q% o9 {1 h: G% Q: U
' r+ K6 f; ~4 v I据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。 j' Z6 p" V3 `) x) R0 r
8 f+ r1 Z' A) n7 M5 p
1 X( |1 h; |3 L" ^Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
# g: b: m% r7 E' D6 n# b& J, ?) q V. }. G: ~
, e7 s4 |* I8 Y5 w" M( ~' q2 T; O
: {8 u# C- X' `2 G/ u3 E) u, u
8 `9 A6 c- L: s7 C. r, `! P* ], X
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。9 G6 b' d2 q2 e0 Q) l0 _
; k1 a5 l( Z4 s. N2 N# T
+ m! i# [/ m7 d7 U* LMali G57 GPU:为主流市场带来智能与沉浸式体验
2 N9 G$ l) b( i- V) L, b4 [% E
- T2 x$ w! \6 P3 I8 e, ]! r- o; C' O. P
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
! D, C. u, }) z$ l" s
, Q! c& e7 h$ f- |
" }" _/ `$ S& A' D' o% S' u1 j' g2 ~8 d( }5 J9 z6 u" P
5 M, L4 ]0 O4 E# q6 }7 P
; E0 F K$ {1 @! d- E+ j* ?
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。# C8 d% t& n- v9 Z; _ T5 Z
; @2 r! q' ^) E! O% J
( Q* t8 E: g+ `9 a- ?2 P. E& n2 nArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
6 I- z3 ]$ {' F8 Q
5 L- E2 o( a' a' L) L/ x7 O! _& @+ ^; y) ~" c9 p
Mali-D37:Arm单位面积效率最高的DPU
. g. m6 L3 E9 B4 i7 U6 n5 _
- a! Y. K9 S: p* r, ~) j
, a8 g/ ^' U, y在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
& {' V1 E9 e7 D2 ?; Y ^2 l- e
5 \1 T7 ~" U$ b" _. z( Q) v b- |5 Y/ Y1 P7 I9 q
. f- |" N5 b1 d3 T% c- ]8 K
6 M# x* [3 i% i' a$ w: F
$ A+ H) u! \ }5 g
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
6 j+ q5 s- n. o
" Z6 _$ W" U. x: z2 T5 I% |* S- ~( d8 w% y2 N, S' P) o
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。4 [7 D3 s( B3 T- y% a$ n
6 B9 a% o. j% Q+ M2 X# ]
; u$ d3 V# c7 G* O4 ^' b' R
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。; T5 R# n1 d8 n1 O4 W, e9 d
8 ~& N( R; N1 ~# M
4 z6 b; T9 {4 S/ E: V) L
Arm的通用型NPU能否获得成功?7 D1 T" l- [7 m3 {
/ V# l) q' h3 v8 x3 B! ]& B1 U. I$ G# }/ H \' q5 S5 |
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?6 K- ^& `0 U+ Q3 c
8 K' S: o2 q2 V2 y2 Z) a' Y. k; _7 V9 U; y3 K
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
) R) U- ]; M" M# G
6 k5 g+ |! H8 r- F. @
; o# T5 O5 n, U% g: f
! D9 }" f# m+ `1 K, R
2 B$ a- E& B/ E. P3 N' S
* m `/ a) x: @: p$ h9 V( f在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。2 h: C5 o @: M' U) E, K
/ ?2 E6 Z6 M& |7 u4 q
% A/ K) K- F5 v另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。/ V/ q+ T; n' N: g m" y
4 D8 z9 ^ B3 X$ F( |1 s. ]
% K3 L- t5 b8 ]另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。1 z9 G) D" C# Y* u/ G
5 w: k0 ~! D; o+ v) _9 d5 V; B' O) h0 [1 C4 u
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
0 x$ Z$ |8 P) N) k% ~
) g/ W2 B6 F/ G( N$ d1 s
0 @$ c; p K# Z/ E' _
" y7 x* J5 W7 l' a
5 M! s N9 l+ n) y! x4 q2 P% i7 B7 v" M; L4 W! N) [! {2 y
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。0 Y' `8 S! I) n' g
; a( C5 Z" j' z, }+ v: c" h' b, _- _' Y" l4 y5 S
编辑:芯智讯-浪客剑* O& i- j( n7 W6 I6 c/ |0 x6 D. B; q
往期精彩文章
6 @: r4 y% f* {7 I1 b1 b w' MVR市场迎来第二春:5G+VR云化将成最大推力!
+ |- ^: N: y5 P" e1 a
% e4 E2 R8 ?+ z& c$ Q" Q) p3 N2019生物识别论坛成功落幕:这十大看点不容错过!
' j f" x2 h/ @0 W9 T# _& p阿里平头哥正式开源RISC-V架构MCU芯片平台7 C' ^" C+ ^) B
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?( X7 ?. [4 @: L9 |7 j2 d0 C- F* n
' c- q+ |0 H9 O2 b6 A( k a. B* p
展锐再推4G功能机芯片虎贲T117,意义何在?0 a- ^/ E; O; H7 e2 E; s
5 \ w) Z2 }+ S9 i历史首次!华为海思4G芯片Balong 711对外销售!) \6 F# s M/ N+ [
0 g/ N# T: C% ~& g( x
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!. i* ~( t$ C Y4 o( S
' r9 @, u+ @, V' D [, @, T- g巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
+ y' W' c$ x" [3 L' W0 r7 |9 |! c% J
可穿戴巨头Fitbit宣布撤出中国!6 T/ k& `) r9 N
( S; M0 o: D( p+ s" y, W收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
: Y0 a8 y) W) V- z" \3 o% C
) m( Q& T" b# v$ ~* T: y禁令之下,安防巨头海康与大华的应对之策!
5 N" c9 y5 v! \
% c$ o9 w* s$ ?( k为应对RISC-V挑战?Arm CPU引入自定义指令功能!
3 }# X% V h: H' }2 G行业交流、合作请加微信:icsmart016 ?- {8 i# D+ K" g! w& k O6 J! I
芯智讯官方交流群:221807116
3 Z3 H8 R# ^/ r% |: ^6 V( u! T- B. ]; Q, s. b# A- d+ j
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1# z1 |& y4 J7 |3 F7 T, c
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|