|
|
) A. L$ Y( P. w, n) G2 Q% Q
. R- g0 R' I/ ~/ `, \% e
# K$ r2 V: ~ ^! A! B$ s7 \# ?: b10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。* W2 }! L/ m' T
' F- ~2 N ~. t% n- ?3 ]7 Y. e$ R4 G8 |
1 v: m$ a# c+ i0 W. D) MARMv8及后续架构将不受限制的继续支持中国合作伙伴!" X8 Q# a4 i" \# j
~5 d0 Q; P- w- d3 c
7 e1 U0 ?: r4 {) c" h今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!5 q. Y! ~$ ~" a; f$ n r
' @' z& u! v* V& k8 v2 D3 p8 J
- g4 r+ k+ G) z3 d! A8 w. K4 }10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!4 T/ g! F2 v4 s5 l% }% T$ i6 N" H
/ ]" @ X1 c/ h! N: P9 {- \0 l: R
% O W9 \6 B. U4 k/ v
/ C0 k3 x" t% e+ w0 \1 m" ]
, A8 D+ a2 U$ y, T8 R* N- q3 t8 P* m- l8 O+ Q9 B o; X
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。/ H3 K- [5 k: }2 U }4 x
3 D: J6 h4 n+ t! t9 N! r
) h3 e+ L9 ]/ o" n% |吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
5 P5 d' R$ k0 W) D F# P1 G2 L9 z I& m/ Z8 M! H, Z- `
" l3 @1 V$ b1 r( G
加码AI计算,Arm发布Ethos系列NPU IP% |7 S! M& R6 F8 a
- O, Z& N- H. t
# V2 [& _' h0 B& a: |4 _
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。& T+ w( G3 M; f- b/ v p5 k
6 W! D5 S9 D2 b$ C# }+ l8 w+ k
/ ^) w" j0 B( n而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
9 D9 w* E* a# W- `1 F2 e* E
$ Q+ Q: I* U- l; c- k8 ]+ ^+ k( k6 d, u: k% f1 `4 N* h7 k
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。' R8 q& A1 w/ h& _. z
/ J6 E/ c4 k3 Q M4 y
/ s/ J y& F, d( [. O" }- O在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。8 z! ~, [/ R* ]2 p
4 a( V: z9 d# V1 x* z/ K2 u0 x/ b( k& ]+ f. H
5 ~- F! p) V8 y6 G5 t$ L) q* F( ]0 I4 a w3 t) l$ a3 g' |
4 E7 v6 p- f; f ~2 }/ j
+ h5 e- ?1 Q/ ^7 V5 v7 b 3 S7 i3 p3 W% f8 b* p
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。- _, ?% S1 U. S6 I$ ]" E
, Q8 Y+ T0 U _" l6 C$ ]- N* K! o9 }. s- {& _
$ H& {( s! R5 E w* @

! h, N" I2 R$ ?1 ~) z! @* Q6 Y( R2 K0 F2 j4 r
; g$ X# ]. ~) C9 h8 U3 h
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?9 ~: g" E' S1 O

+ {1 Y% I h# Z4 `- @根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。8 ]# N$ o9 O7 O( z( p& n
! Q7 y' d+ B1 V0 B8 _. Z6 R; Z6 m0 J( S+ i) `* Q
7 o2 f6 T5 C: O4 g s
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
) k2 v* b( C( m: `
7 B/ \% S6 O8 b! K; Y9 i' T
! k: `! C; s. z7 B: m在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。# Y0 m! y+ A7 i; O5 _* p* N
" P! m- ]$ b& b* K* h3 w. f6 e7 }
* P$ \# E) s5 [1 M从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。) H9 L3 B( V3 {% i, Z" s1 m: b
$ D" U/ r. T% @! A- v$ l2 S
$ ], L$ @+ @: m) V, U/ }4 A需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
, G1 |- r) [# X. V0 \# a9 A- G; X l: o4 _6 o1 y' _) X- ?
6 G' s7 S) @% B" U2 y. @* Q( Z
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。! ~4 B1 s1 I- E8 R. f
$ _' T8 M. ~ ^, a" H& j
$ V7 j O$ \7 q# O+ r/ z另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
) M0 \! p3 T% b) q' ~9 j& { ]2 |3 Q# c
% g" ^: Q7 R$ h" o
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
2 ?2 O- e0 M; ]
7 r d, l v4 g6 K1 J6 c6 x f% B; |+ Y/ D$ ?" J& y3 x* Z/ {
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
* G2 Y/ k d% r. s+ ~& L) [* `! J
" d0 `5 }% t, u9 s
1 g& r% i- _2 e! {开源的AI开发框架Arm NN
& K+ R9 |; ^% K: {
/ m3 B1 @, g0 u3 t6 T5 r' z
" ?' \6 K5 F! T: `5 K% r我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
9 K( O2 C/ p' W' j! t; p" |
# s# v! {+ L9 M# M" f! T) V* }$ j2 B0 _' h5 l
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
5 A! f2 H2 F/ D# F/ l
1 n6 z4 Z* i: C' \5 M4 y3 s4 j: M: T
$ s" I9 G; A1 f6 k6 K6 f
* q! ?' U' ]8 u1 S
7 n) C: E1 K8 n/ i& V* X" K据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。+ Q8 R- i8 O) Q. h U, j5 T [0 C
/ c* D+ s) W5 ^( V5 W0 R. i
; f: R. f) B7 p( Q; k4 ], I I
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。7 z) x0 r* l! L" L
1 A4 ?' z8 j: l. g' r* a2 x% _1 y* r8 E

0 B7 o' j5 w9 o7 U. x
1 Y6 Q K1 @$ c8 N
% |5 J3 u% B2 x5 ?. j此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。( N' c- k$ ^+ ]0 Y- P" \
8 {9 H+ F8 J8 O# K. y
+ z' ?, E7 q$ q2 U8 L: {Mali G57 GPU:为主流市场带来智能与沉浸式体验
) Q8 _+ n+ I* v, f) G9 C" n! f: \; k% [* | M
0 C: H: f* E# F' b" h8 z
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
1 n$ q* q0 F7 x( f7 m. q' [$ r. h6 S; a- p; [$ T
|6 y+ B+ \8 I* V- w1 w
, X1 y5 D3 N% i2 H& X& w% J D& i
0 {/ D+ J: m a3 J, G5 H+ e2 w6 z+ ]
6 ]* I5 G/ n O3 N据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。3 r8 X" y& T* \2 `" c+ n
" z- I. r- {3 q6 q
8 K t3 d! U- f# u! l/ Q! J8 XArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。; k+ z$ D. b V
i) { _1 X! ]0 T `
; z) Z: r( I( o6 J( |7 g
Mali-D37:Arm单位面积效率最高的DPU9 A* t7 o6 F3 j" w9 S( c" X- j
+ }- {, H U8 ^ x2 y- ]
! `/ h( E6 m- ~' h& Q4 K. b
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。# o% v* O% D/ W* k
5 y( h/ H# q( r9 J
1 L1 f, M+ c5 v8 B0 I6 j; u
0 S; s/ M {) Z' r% ]4 {/ Q# @, i9 {! E! _3 N; Q
0 R7 }$ z1 O: o- l3 E, E U' K据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。3 l7 S0 C" P0 L ?0 O* _4 `, u5 H1 V
% }* @; f( _+ _, B6 Y( o
. K$ U9 T i+ |8 u: P
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
; ^8 p1 w0 n( e5 m& @
) I5 V9 O& G& n8 j; ?5 }6 {( N% q4 c6 W, p8 ]/ I, ~" w: \
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。* Z' Q1 T! \4 J
" k8 N, y4 ]2 J3 }$ C! d% B
6 P! }/ I) K, P' D
Arm的通用型NPU能否获得成功?
/ g. e) l, f( V/ o8 h b5 P2 m g t2 o* q5 O% ~0 g
8 e# t! f0 }2 ~2 Q
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?/ t8 W& L5 u4 s, T6 ]/ {! q
0 o5 s$ O% h4 Y( @/ L4 X1 b; g. P1 E
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。& z* W6 A5 ?( @: [
' w6 ?) V' z! f+ N5 V
% k, l! |# ?* \% @7 x% P% ?
: r, g5 W M, l8 i( [9 F: s6 H" v( \& ]( |% ~0 A$ |& m
2 z7 v# N+ v0 L( T, }' [在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
& R4 g5 Q. e8 ^) Y# |& Z+ O4 O5 j( }' M7 S) ]
j. @: C7 L; Y* G/ f# Y, ^另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。. j4 h3 [' T9 @
% }! Y' q0 C* q
7 Z! b$ N& v0 C另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
# ^' r6 ^0 q8 Q) j+ L8 H6 a0 _: ]& }5 e8 b
6 F8 ~2 s: d2 M. f, b7 C# Q+ a
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
# }. ^! Z+ f" ~) f/ y$ r& Z5 r, n& i; z4 m) }
0 t1 t% [: M5 H# }' ]
+ [0 B) {3 H/ l) k8 d- w2 n5 W" Q: B
* K# x" l, a! b5 |3 I
* P L1 I5 X Z0 V值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。# _! o& }0 k2 [
( ~* Y2 _- N- P2 P2 c
5 M# a$ f5 X' S1 b. L% s6 b. l* M编辑:芯智讯-浪客剑
/ B/ @; U& X# y往期精彩文章
( }& i! D# k0 C. cVR市场迎来第二春:5G+VR云化将成最大推力!
9 C4 T" h1 s6 @2 [! V3 o+ \0 o4 W7 Y' \2 ?8 U9 G1 f
2019生物识别论坛成功落幕:这十大看点不容错过!$ l& F( z {0 k# a
阿里平头哥正式开源RISC-V架构MCU芯片平台
4 _: v4 U, b/ l7 V, T首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?8 S# U' m, k- ?
5 t9 {9 {7 @, `& Y展锐再推4G功能机芯片虎贲T117,意义何在?
+ n$ u0 d" v; t% D; | L* C% @2 X' B" D
历史首次!华为海思4G芯片Balong 711对外销售!
) F% F. }6 \* Q* w! l0 ]$ G4 h4 X% _* y9 C( U! R
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!+ Y6 ~4 m. L) M5 P; M
. Q, I$ ]# I7 i% o5 i J6 b
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
: }+ p" z; F8 [/ e: v( l( }. ~8 R r p3 l, U) _$ T7 G! p# o
可穿戴巨头Fitbit宣布撤出中国!
) n, b+ s7 b; I* V) V! m9 k* s% [# L, m* E
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
; f+ e1 \( c' y6 D( S
- }! g% ?: Z+ }! s" T( h禁令之下,安防巨头海康与大华的应对之策!
# F0 V$ N- Y7 z- Q/ x2 O
8 k/ W) f9 U5 [$ J! S为应对RISC-V挑战?Arm CPU引入自定义指令功能!
! N. o# |7 y: r$ p* u行业交流、合作请加微信:icsmart010 b+ _ L& T5 j/ G! _* c
芯智讯官方交流群:221807116
* Z T& c# A9 f' v. x& Q
4 S# W3 [% m5 N! J- `来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
0 N& v7 ], P5 w免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|