7 i" G8 E. t2 C6 u( _
4 i6 {' ] E8 [5 q6 j% w& p/ t5 L
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
' n& J0 f3 l9 _$ b! o7 |4 h0 d* z6 p8 r$ |/ V3 x/ |1 b6 ?7 k6 i
; q3 O) I2 M7 G/ ?' W8 B# Y3 |. t, cARMv8及后续架构将不受限制的继续支持中国合作伙伴!
" i( S. P4 }9 O3 ? o& [! R7 B
1 G- H3 }' K& a/ P5 J: u
+ U9 p+ Q' P5 n' O5 C, G今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
+ I {( f, z* Q0 j+ q: S. t
, R$ p$ F+ I" U; h h9 D5 y; {) s5 e( @5 ?2 G+ F7 A: n
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
1 g& ]3 c" J% t4 J- m
, M- q6 p& V, |& K/ r8 H- @5 G6 w

2 ^' L3 v- z+ c$ I& P% M8 X/ G9 _/ P& C& c) M
% N+ x, f+ Q$ I2 L6 N* P此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
# c, M, ~) C6 n- `( j3 n
$ `% K* i$ |0 [3 {, r5 D! U0 V. R0 \8 T8 H" I9 W; `
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
4 R+ _' V* W& E7 Z
8 S" D5 t. S: N& o
- G# s# g. }. P" L0 w/ i' y加码AI计算,Arm发布Ethos系列NPU IP
: [& q2 U J: Q6 B$ g% \2 F' H) D. F- q6 I
1 | q1 E' ]/ H6 P
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。2 `+ S9 f0 `/ l7 Z& [4 I
7 v. Z. y% @' i' h7 t1 O
; O2 M/ L, ~3 l4 C; z2 ^6 ]而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
1 { E5 n7 u/ M7 n3 n3 D; k. I' \6 ?% |+ K) n! ?. b
, J" Q9 K, d- a
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。. n, J+ U5 y' ^( x, s& r) I
2 S D [+ G8 w. a0 U9 Q
. h/ n) |, l, ^/ o在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
8 X' q# P" z- h K+ V, r6 t
/ U- \ S* W0 ?3 i
3 Y* q6 t+ I, |! w" i8 \0 f/ S0 a7 P9 M" x, D; x- E; q
% v. F9 J; u7 c" Q
) {, y- v8 I4 n- B9 Q
5 ?: |9 ~$ W2 Z6 F9 Q; S x ' L+ [) {5 V: F3 X2 I- i4 x
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
9 j, q; `3 |* i, X4 y {* `; a, U, t6 H8 Y
2 m: n1 r$ g+ r) V- T& }7 `) U& w1 l9 Z" M
5 w* D+ X% ?( R# }

' @+ ~7 b9 ~: J: i+ `+ m) W% n5 @/ \8 l2 W f' X
J6 b& ]' S, j; Y' i% E! y6 {
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?/ Y0 i; j6 [- `; M6 @
) A8 S7 M4 Y2 X _( ] J, I
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。% H: K! ~) `8 D0 w, J) B& r+ G5 C
2 A# J7 k: V: p$ z. |$ i
% P! S) N0 z4 U: {0 e2 M4 ~: y; C+ t0 Q: Q+ `$ y8 f
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
3 \& ^" c) K" g! }+ O1 W+ C Q0 a/ ^, a; g
1 |% w b! H0 D4 f在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
0 {- C1 ~1 C2 G( x- b! K P6 o" y# {8 a
% n! w9 ^/ M& h+ z
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
4 }$ U8 J5 I5 O9 {+ d: p
5 D% n! h9 c; n- w Q' m. a1 A; g* L! B5 ]) u
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
8 x! _9 F2 z8 C
- z) G9 @- c0 r1 c) |" r' M7 ]8 w* [
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
( q! t: W4 H" u0 O7 G7 b& x9 g5 G' _1 Y$ x1 D- h6 t3 A
0 d+ F2 p& d: r; i' y/ R
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
1 c+ k0 S, E. |( x% J+ V: j1 ^+ J: e& }/ b% U
( D% u9 I0 a( A' F XArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。; O5 d4 F) l- \* F
. z! k1 F _4 |9 q0 J9 u& r3 ^! J3 r, q
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。* [! |% \/ S9 H: ^
* O1 E V. ^% j
% @+ O6 d7 a# @1 X: I开源的AI开发框架Arm NN
. g' W+ E1 U, k% }& G/ ]1 T2 z
! ?0 b# G& o/ d9 d4 S
5 y- h( w& [$ w/ V$ R: [- X0 T我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
% t& j! m' @' p- V6 B
4 ?( C( F7 p( k
1 v: ?7 u* [' f7 K6 p而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。, h# V& T& \2 L s
* u7 t# n( N: O8 ]) D2 B& S! r3 X, V$ m) y

0 n, E5 ~' @, ? X0 _( y# ]6 E4 l7 F
2 J2 H7 ]5 G0 u0 G c& k# R1 b* L, i; F) Q; P9 [! `
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
- T+ F- }6 J. Y9 K
# f% J5 s" x& ^ e2 j' C5 ?1 \6 D2 U0 g4 c1 | L
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
$ y2 P2 F" ?. j" K$ v: q2 a ^) c: E% [+ V. Z5 K% F
% V- B/ R4 Z& t# F) l
% q& ]# C, ?& U$ {* f6 J9 y
" M) Q+ F( ]) ]
5 f# \% {' G6 C5 w8 P' @1 \' |此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
z* }/ c8 r9 M& f `0 R% Y- i; j+ {! Q- d3 B
% b$ y c6 ^& u4 WMali G57 GPU:为主流市场带来智能与沉浸式体验0 X) B7 f$ b$ b6 x3 n& Z7 [
2 l* Y4 y# G; E. v8 a
4 x8 r" q# o5 R# s" B今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)' Y0 z R3 k& q j
~' J& ]8 L" |4 h5 D4 n, R( {6 P' M( R/ g! M; u

9 R# Y8 z1 V( B0 l, o
$ `* O1 j0 U5 `4 E; Y2 d7 W
0 Q! M6 f8 D [据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。+ d/ f; X6 e* L( S) X4 d
6 q$ f9 h: n3 g' Y
& F& T! u) [) m3 n- v. ?) g* ?. X
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。" I9 m& w0 |' n' p$ l. J1 W& ?
; U& C2 V: T O# f* y$ L! O4 Y1 `/ M$ t" ^3 i
Mali-D37:Arm单位面积效率最高的DPU/ r' h! Q% \# Z0 m& I; |
# h% B! c- T0 c$ n$ A [9 y4 E1 f9 ~# s# p/ _' Y
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
; |/ C" l4 Y: Q {% R3 P
" Y2 s7 Z$ z2 f& T1 R' h. l' b+ n) a4 R$ i
/ t0 x8 B8 M8 l: j+ t
1 J9 J' o8 T: A, o# G
8 N( k m$ @7 i4 L6 k/ }' v' p据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
6 W1 p$ s1 W; K0 W
- ~; [2 I. D% D( m( R+ W7 ?
2 k1 J* Q, D2 l" K在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
. [: h( Q9 T0 u
1 V% @& W# q, {4 ] T; `, T( K1 l9 j; d' x/ f( l# ^4 H
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。 V: B5 C! j0 w8 N. ^3 x- h1 Y Q0 A) d
& R2 h: Y- k# q1 M" J* J
" K1 C! L" ?+ `* O3 [( ]0 qArm的通用型NPU能否获得成功?
4 X1 @- d6 C6 c& f( o4 t/ Z: t9 n/ B) m) D0 k
: ^) U1 D' W+ c6 E N* X从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?+ S# v1 E" h+ P
1 I" m* X1 N; d2 b0 u' u. r4 K" S- ?. I8 i! t& M
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。5 M8 A9 \5 H' S
. J$ Y2 d4 V" F
+ Z0 a3 m. s1 j
7 q) J: |' I1 k8 p* H2 P
. `& j! A3 v! G) j/ `5 z5 j9 L5 P( ]0 J* u" {! I
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。! }$ w: s' D( J" g
5 c: G0 p) _# R$ ]; P* m) j9 O! ^ t6 S, b( E$ [; y! h* ]
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
" F" h1 X) F- |
/ t) t, h* d, l8 U& B% j
. R" A8 x5 N! W, U* }另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
) i" t' Q6 f/ u5 }( R4 G
2 B. b( X, f# W; W: n2 R
9 ?0 g7 ~* b7 J' G; Y/ g最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
! |7 l% \' e; c' i$ u" p5 S9 p& i# Q8 O6 H
# f: @/ \5 p! q v+ o: Z
4 i3 R: ^4 u) A4 ] k- ^* s
4 G8 E0 p* a" j9 B' |( E: n( y" K
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。4 N% n! E6 y0 B: Q
4 y2 G) t6 [ L% J! o. ?$ \, ?, l( f% y# L
编辑:芯智讯-浪客剑7 p2 N4 b; w o' N, B7 i& B/ n
往期精彩文章7 z1 t/ m+ O0 F, {" O
VR市场迎来第二春:5G+VR云化将成最大推力!8 g/ d8 J" J. I) r" J( P' o
, P5 ~9 b; K; o* ^2 r3 U; T/ Z) I; O8 E
2019生物识别论坛成功落幕:这十大看点不容错过!6 Y" p- _, S) T+ c. h5 I& I
阿里平头哥正式开源RISC-V架构MCU芯片平台$ p* G f- a+ x: l
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
- ?* z- o% g4 j5 z _2 m% I% Y$ y# H
展锐再推4G功能机芯片虎贲T117,意义何在?
3 E; h% z m& e6 @2 L: v
' s: _6 T: b' w9 P( z. m历史首次!华为海思4G芯片Balong 711对外销售!8 ~1 E$ p% K) d" \" w7 \& q! y
7 }" J! J* O' ?6 P4 K6 [
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!& F! O" t# q7 F6 ~9 j6 m
: D% H/ ]$ I; X巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!/ h9 [% w6 ?# ~; O$ g( s
- W6 V2 S; c2 s# ]* g5 A可穿戴巨头Fitbit宣布撤出中国!
' h- f% T$ g+ o' j6 D, b
3 ?) \0 g( ~' \) \: a, K, y% @- h' y收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
+ o$ r3 `' t: Q( _8 d
5 l7 U2 A( J0 s* Q- {: i. C禁令之下,安防巨头海康与大华的应对之策!
4 Q& S# |% N, z/ \- f$ ]* ~! X; p7 T3 q" i- A9 I: I6 E
为应对RISC-V挑战?Arm CPU引入自定义指令功能!, E/ K5 P; r2 B8 T2 Y. s
行业交流、合作请加微信:icsmart013 M0 b1 h7 P- }9 T% `& T N) Z
芯智讯官方交流群:221807116 5 |: B* i* j* b' t
4 R% ^+ m E3 p
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1+ { @8 [ E/ t% D
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |