|
|
# l. F( _+ l2 A$ P' B* Z
- P8 ?8 g! O9 o' ~# n% Z. C
! c# k. N: t: G) \2 }6 u( x" D
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
P$ F3 ^8 k) X
7 d' n$ Q5 ]$ O' D% M
+ p: b' k I& k) q* d& G9 N/ a. n$ iARMv8及后续架构将不受限制的继续支持中国合作伙伴!
8 G. ~. Z4 t: T3 U/ X8 {! l1 F" M/ m3 Q i1 a
6 j$ T+ e n/ t) E% x2 @# U8 y
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!/ ?9 d& t6 k8 [1 v9 }
+ R G% W; ^ }! a+ S& Q
1 n+ J8 ]) k+ l% O8 @/ D% ^. B+ s
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
# K# A$ b" P( C/ d# M( X: L" s5 f) f8 v. j8 T
" `/ V2 o9 Q7 V8 o4 B1 ]
7 C: A/ V# d) d b' K) f* M9 G2 |9 s/ e; p. A$ U( U
?1 o/ c) B; O: \/ C1 p" A5 J: w* p此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
2 |: I' X- g7 }! x% P
: q$ {& D# @) V$ z2 N3 R/ _! B+ o4 K' h; A d- _
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。4 b9 m3 f' n- g* n J- `# y6 v
4 G9 N& N- X3 V4 b! ?! ~: G: `$ g w
: r1 c6 `: }* p0 [, T4 I% _: Q1 B加码AI计算,Arm发布Ethos系列NPU IP
# I; x+ E+ S6 |; q+ ?8 P g( F# P6 B k! E" b0 q
: M+ c, Y" m, M/ @根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
! c! U _" F2 ?. Z0 g2 `% u
' q! P# {( h+ D# D
+ g& l& p& S$ Q9 @0 Z( H' e而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。: C; M- C/ J; K7 }% F# m* K
/ N8 J3 k7 ?+ }" N& F( t" D, @0 `! B
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
% ]. }$ E( a9 M8 l& ~, ^+ \- W
3 F% e5 `( M* d9 E
" a7 M7 k* o- t在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。0 ^' n" G, l$ `1 V* |. o. a' N6 B4 J
" y' |% l4 y+ ?# |2 j& \8 V$ g, @: N, u; P- `
! a- H9 Y- w: j: U; B# c
Z5 o& V+ T! q* O7 G0 }" d4 E9 J9 B
; H4 Z1 x9 D8 I6 W- R$ @1 `5 m+ {3 }0 W1 ^! i: K
, G, S- d- o: t+ \5 R2 X& A今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。1 n; f' w* P$ r
6 m$ q6 F! w& y* j' m- v" x& z0 u
5 J1 ?; l- e- z$ i
( b$ J1 s! U2 U5 i- f - U Y4 g# P+ ?
2 U7 `6 _* O1 c' @$ d/ M. ?! T4 ?' I% w
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
6 l9 y& {) N5 H- _. D; L, R * [ a% E9 a T/ m3 x$ }: r
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。5 O" F7 @+ V( E3 z6 h
1 y9 g$ ]- p: K1 Z
% y* o9 V7 |) ]+ \ X2 S+ Z0 j' o7 D6 v! E
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
# g8 V5 z5 D4 T5 W( c w- g) |
# v9 {' m0 }, l$ E+ O) H+ @9 e$ w s- P- D$ S' L( R
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。3 W$ {; i' D2 q% N( O9 G, W
# u/ {5 k+ K/ j* Z( A. u; {$ c
2 X9 c' R/ a4 w( ?& e& G" D4 @7 v
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
, H( c+ p0 w% W P& r& z8 K+ a6 F# f& y' Q
3 V h3 o+ F7 x6 ]
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
( C ^* P5 c2 ~
- q/ r) B5 I; l7 e0 t5 `: W3 w6 _6 h" Q% X# ^3 t0 G& a/ o
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。! A2 L6 r l2 a
. r) F0 j+ W8 e7 g9 U" @7 j' _( r. ]- D
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
5 t! h/ {& \5 ]1 f' J
& b! @6 y. [, @* b3 X
: G0 W1 G, r/ c# ZArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
- M8 ]* h4 @' d" [ D3 g& h% o# j, l3 ~! I
; Z0 T/ v2 [5 a9 ^, v( s据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
0 r- B+ m! ^: H" P" k. R
8 {; {7 N" l+ P- I! w0 C% F3 M6 {, k4 p! V! L
开源的AI开发框架Arm NN
) s: V2 R3 X+ W) S+ ]8 I2 t
9 W- Y* H5 D9 z; W5 N" Q. c* k2 [) \& x! _! `
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。7 ~( a# r0 e0 C" C
) P; b# T) W2 Y+ I
8 m6 K; [- k M4 \$ H- @: u而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
9 D( l' q4 a3 O. d1 C( }1 _$ V- D9 d1 K3 ^
5 w' h3 w( ?; d# m) I5 C8 @
+ T7 w7 K4 d9 _+ f$ U$ N- A
' ^6 [5 L# C8 G
( p. D* }1 e1 T; l g
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。& |2 Y. r( @3 p( u4 L
' ~& N3 y7 P+ B$ [. ]6 _6 n, `& A
0 ]( n* I$ C/ |) u) y2 {* BArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。7 K; _+ c" [, Z) F
9 G+ ]) {# W% E, N" z" n, @+ B' Y' L" {) q

1 |, s' K+ ^2 |7 G l
+ |* `) ^0 U) \ \$ p
% Q: N( ?) F1 a/ I- j! L4 W7 |' E此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
+ w3 L S) v9 N; H J8 ^" `6 @) ? ~$ K# R
' T- ` h0 U, Q: cMali G57 GPU:为主流市场带来智能与沉浸式体验
3 r& W7 Z7 m2 ~. p/ G( J1 Q( s9 {* H; Y5 _/ W( a+ G" [
6 c7 t/ E6 I( y( @, j% N6 I7 C今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
- D- d# u* k, i* X6 V' p5 g/ g
3 c7 m: \! S. t1 C3 b, S5 F3 L& \
( D$ l) C% S2 }1 L# k: `3 F, @ 8 l/ V/ o, ^$ t: ?6 H
, M4 H6 `; ?$ F+ r% C
' z! k2 z, }& I/ W据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。6 \* b n& }9 X2 u+ m8 b
/ @- x! C' Q; v% O, w
4 \5 d; B" N* s1 E9 c$ AArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
/ h" Z Y& g+ E
, x" y: {1 J7 Y: b3 z
4 H! p; Y e# P4 ^9 R. v2 uMali-D37:Arm单位面积效率最高的DPU; R, ]4 `5 p8 E: I
# h1 i+ U0 ^* F) H3 c" k: u Z% ~
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。7 `- |2 n3 J# p8 a- g
+ p! s3 M7 m, C; H
0 k( i) X0 p+ P; S2 A; t4 A0 ?; Q / w) g- x& B0 A, T3 c1 p
! @0 z2 |( Q7 n0 O5 B
9 V0 @# Y( l6 f- x) y$ I$ r s据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。+ v# |9 E; V; I- C. a
; J% D5 S* P- _& v# u# |4 E
* I4 h; \% C! S0 a& v在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
& \; e+ G9 f5 y1 l: C+ b
+ v" @$ H, g, C" w, {$ z. X: g$ I2 O. t) d8 u! {8 G
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。' G: \1 J) ?8 U
, e' |" H3 i/ Q& y% O2 A
5 H& \6 X$ c1 ]3 C
Arm的通用型NPU能否获得成功?
0 x5 i& j$ a, b; c" o
( M- @: N' Z' x; z- P7 l0 v
L4 C3 k7 ~! j2 a$ }4 @从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?6 S7 i+ i8 u$ D2 x3 e+ b9 O6 b$ j
, N; H( j. z8 W
( i% N+ \/ m* [6 t1 [# U4 ~, C对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
2 u- Y$ t. @7 ~% P
/ R N, ]# k& \$ V8 _* R4 x" @
- w/ \$ p" }; ~0 x! m, e. W: X! p8 X4 v
+ A* p' k: M$ W& Z# ]" m7 Y3 G7 f# A% Q T
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
8 Z) ]' V8 U/ q# s* y0 O8 x
4 y: c8 o. X7 x# i3 f+ x$ |1 r# ~& X: M A, l
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。7 q% a; z* O8 R* j: l9 I, s3 Y7 ~
6 @; _. S6 V8 A$ `
6 K- {$ `7 D* Q1 r5 v4 ?
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
# z" K! W( B9 |" l' r, v w; o8 U3 v: J9 s% v( E1 Y; @; d3 O
# `! x9 t5 N$ N4 y- O: ~
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
$ w* }! l5 @" y2 f, d, ?
/ ]( k! R- s5 }: @4 m5 I' A( Y5 Z
6 k7 T2 D% }6 [. L1 U& Q1 Q6 @( ?8 n" b
/ o; F& k% Q z) A6 }( b
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
$ e$ S0 G5 X+ D: E& [/ e' {1 e& z& m8 {% o. N& v
# g/ X# w0 N- A. U: d! a3 o编辑:芯智讯-浪客剑
# f9 D0 Y3 j5 v8 q往期精彩文章
' k: I* O7 E' a7 G& _VR市场迎来第二春:5G+VR云化将成最大推力!
/ M8 m4 I3 u) d) V9 Y) q
6 G( X( }. f( ~8 R- e0 P o' e& V2019生物识别论坛成功落幕:这十大看点不容错过!
- ~% z; c1 g; Q) |3 I阿里平头哥正式开源RISC-V架构MCU芯片平台- x' F9 W1 m$ y2 p N
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
. V& \$ D/ s6 m: H) g5 \
- b! q- S" r. B* G* V. q展锐再推4G功能机芯片虎贲T117,意义何在?
/ K/ [; M- @5 d z. o" ]& ]* G9 J, J" H: k; @2 b) q1 ^
历史首次!华为海思4G芯片Balong 711对外销售!
# b) ^) L# j7 m0 |( G& B9 q( e" V$ \! \
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
! n) d9 r$ \; m1 o, c
. w% Z/ D2 S$ K' ~1 P6 ^巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!2 G) Z i8 h& e8 ^- S0 B) `7 Y
& p( I V! o) `$ J
可穿戴巨头Fitbit宣布撤出中国!3 f) x+ d3 h& S
x9 [1 N) h& q* ~收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
9 w2 r) e- ]& _$ n4 A! A! Z. j# N/ J$ A8 t3 a! \
禁令之下,安防巨头海康与大华的应对之策!5 \; I1 c6 C& s: G
7 s, v; w5 k$ W) S5 h" F1 F( b% F为应对RISC-V挑战?Arm CPU引入自定义指令功能!5 [4 y% F& g3 \. r. `3 \ L% f1 h
行业交流、合作请加微信:icsmart01
( U' v/ Z* o+ Y5 d; z1 _8 Z芯智讯官方交流群:221807116
% T6 u; d2 A1 K6 i3 X
- S" L. {4 ^! F$ H1 T9 F4 y来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1) H- }7 R0 |/ I# Q
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|