|
+ {( k( T: U, Q' R% J
# H5 L& ]& h- Z0 m4 A
. P1 F/ k3 G3 g. b3 d. Q2 h10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。- O& Z; q# M `) ^
1 \# ^5 {" U9 {- l- }
& j. B& ^! A( I' o8 aARMv8及后续架构将不受限制的继续支持中国合作伙伴!
5 B+ Q0 ?9 ^) y5 @" |
o" V7 m/ m" I- m2 G
. Z8 G, o" x4 `5 r% J6 _今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
; m2 Z4 A+ b$ [" m/ ]8 }: e& ^- h; Q( j0 o, X2 P
" O w& C2 P8 {% `8 t' X- @9 G10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
" @# \3 I3 v: I9 ]% }9 | d6 a6 \1 C( \ }/ d3 z
; h' o$ x) U0 i _) a. H. T 5 Y5 N7 |) ?; P
- R! {) J6 o1 r( J: X7 H* A% |
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。1 b# t1 j' I% a, c E
3 j' H, I2 j1 {
! H# z9 D' }& s- c7 B7 \# a2 _吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
+ s' ?! n& f, F- y5 P7 W! R
% T( [- j2 d9 H p# }/ [1 }( B5 |) C6 Y4 H, \
加码AI计算,Arm发布Ethos系列NPU IP& {8 J3 m" O5 r
' d0 o) D( X0 F. s' b
. t r, r" I3 y根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。+ h" w9 N- C- M# |2 ^: V3 t
m A( Z+ W% x# }1 v+ A
/ M |' m! z+ y
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
9 o# r d5 q$ `1 C+ c- r4 R, \0 d8 d( Q$ W/ R5 ^$ u8 d7 a* Y& p7 A
5 y) E+ b( W) R6 ~
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
1 |1 P W/ U" H/ S' w) q$ x
+ K+ j* \5 [- J) O$ r* D! i& e! n) A7 k3 H& Y' q
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
- [6 k, |0 _% o- _4 A
* o4 d( ]' z9 v8 |4 R6 o
# L8 w2 ^2 K+ p- g2 u% I) F3 z3 R8 q# r* E; @* @& H0 m1 `
7 T. w' K$ O$ p+ E5 b% @
9 v/ N$ }' s5 o- E/ z, _. [/ ~# p2 ?6 f$ L8 M$ p! R
6 {1 D7 R, y) M5 k, m& Q- M! d! ]
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
$ N7 q9 R" w) a; n7 @! F: c5 M! t1 i, _5 e
' g0 K3 F' m, m- ?7 x9 O
! v+ N7 ~1 E% E7 C6 g
% y m) Z# B( n$ P3 z9 ?" G5 Z0 j1 e# a6 F: a) n
- V3 z8 W' d9 _' s- yEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
6 S; `; K; ]+ w7 K. [& ^/ V ' c4 j/ A4 h% v0 Y# {! q
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。7 n% G% P% v! a
0 `. ~. P9 ?( v- G
1 ]" O* C/ o6 T/ b/ ?% K. ^. C- \' w$ ?( a% u. _
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
( I. b& L X. Z- s
, N" I A) c# U' I0 P# G7 O z4 \: y$ r( V a
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。4 e4 s/ h% j1 T( l4 r
, w* \/ C& g! ?' x% O' t
6 @* r: V/ r' @' r
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
. p& q9 ~5 K" X2 v; Z
' Q0 Y; z2 Z+ E0 t+ Z$ N* O8 ^, w: S8 s/ X1 p
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。" q& n3 v9 V. {& d
; ]/ j- i; i7 @* b- X* r) F0 } d6 E- t' A0 d& b, Q8 h
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
z( f# Q- t- v7 X# G
E1 r; G1 P7 v9 v3 r2 h9 F$ M, @$ N( x+ G" g
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。. L( `" o" M) O8 ^/ E6 q- d5 w2 ]
1 c& z6 \* A+ f, ~8 t+ K/ L. h3 k8 f% K) X" t( D4 ?
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
. o0 h! {1 X& ~, [: D( f1 _1 W; K$ s$ D* j
) Q8 j# e& \, Q" m
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。5 W. f) `6 c4 _6 q( Z( x8 n* |
/ q& Y6 ?/ n& D9 D; r
; q% {" Y f: v4 c! m! {开源的AI开发框架Arm NN& b3 S1 H# m: h" D( f8 C, O
& Z- A! H2 L: J8 a
* Q* `; r$ e1 J% {% W: ~, c6 h8 l7 k
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。) b; l& z* I3 X- d
- f6 Z& E$ M( x c3 {6 i
) s( H% X/ ^. K; _4 L0 }而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。9 b% @' q# |4 I6 f" ]
! o+ W0 }, L7 N7 Q! U I# K! H! b7 z, r% l$ g

1 _3 s( z( s: C- c6 W1 [
. p( }. X5 o. o" }. Y& Z9 q. n% _; ~" J% i# {
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。* x. r2 C4 R* v/ z1 B) k* q
& }. g" X3 D: M- `& p6 n# G9 K. Q3 O8 K* z* [
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
8 Y& H$ J8 V. _, o( X7 z
# m( t: I8 G$ U; ^
, s( W0 V" I f8 G {1 U2 Q( q
7 E" E/ D2 s [" y; |/ X' Z% t# d' u {$ s, \, C5 x$ m* P% _
* z6 B. O. r& U此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。, L* T5 U$ W( w) y
+ e" ]9 Z R& J3 [- \2 f5 Z+ F# n" w8 l3 }
Mali G57 GPU:为主流市场带来智能与沉浸式体验, O1 g! a- S6 X; A
8 X0 c% S; D4 u! T& ]: ` L1 v9 o8 ?3 z" K
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。). p* _1 V v( J) `) C M* d
# }% V9 z; ]& S, I/ r; W; \
9 z5 F+ Y: _9 Y5 k: D& C: p; O
' y- v0 Q9 u8 a; _
- X3 E5 S5 T2 l! {$ I7 o4 `- g: A% K9 z+ D5 I! ^& H
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。9 r- F( Q! E. G9 D. v
$ p1 C' z# R% ^& t& a
# E+ G& s4 H/ `7 W1 W/ }3 OArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
2 D6 _5 [4 `! q W, R3 ~; b) }. W6 Q3 ^ v7 h( X
. c7 q' H$ j: c0 ]1 g* WMali-D37:Arm单位面积效率最高的DPU
$ ^) m v% G) @4 A
& V* `; n# e& Z0 P1 [7 {4 v6 M
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。1 P8 _ `4 J" ~1 _0 L7 |& m
+ f7 u6 C1 g6 F8 f" Z+ e
* Y+ u t4 W. R R. ^ 0 e0 ~) Z& U I$ D4 x
6 {' N5 Y9 y1 L, n8 m. i; S8 l- I
1 ]+ c; Y& a$ B& L6 n% P0 ~据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
) n2 ^9 E1 ]1 l
4 J( ]. R0 C" P. d4 C( L _7 B5 M+ n% n4 G$ x# i* {
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
/ |2 o, C+ \2 R- ~( V8 z
* h w. ~ R( m1 T. g3 A7 H$ _
, L% M0 u/ E( v$ i9 `Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。) n" ~# W2 H: |& |
# ^- `9 U$ w( Q% t
" M) D6 @2 H; O, X& R
Arm的通用型NPU能否获得成功?" w2 g' i2 S1 }% X$ ?( w
# O! g% i( c8 J$ ~* N
$ m; @2 C7 b5 ` x7 p y从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
' Y1 c( Z w0 M s$ V) j* z6 b( k7 u- @- S; q
% X1 R# G5 Q+ K+ I) B5 |* r! |: ?
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。: {/ ?/ i# x3 P8 R5 N# s
3 B& V. f9 b& m
- K9 R4 ]# G/ y b) e ~2 f& s/ p; }5 t
F1 e* o" s7 C0 j9 s7 G, L
, `5 o/ C7 u9 ^/ X在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
$ q/ h# ^- V& \2 v4 e! P; W+ n9 e: n4 J; n6 \
! k8 Z5 K7 w2 c" h% j8 z/ q另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
6 z, o6 |$ b9 i3 V+ J5 N
& P( ?, R1 x" E( I' y% b+ [& H
3 ?+ i2 [- X: l7 C$ u x# G# ]另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。 v5 d- _& [9 r. @& d& _' d3 y0 q
8 @% `% E! X* `, F) ~2 X, d* @* f* D& E# V
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。- i* l; _, O+ k9 C' ? S. A
$ E: c) z' n" |: f4 l: b
/ V4 k! \4 Y% ]* s2 F8 C( f1 _4 p! P0 X' Q! p" J. ?% K4 Q
" z) { ^* ^( ?; \9 J& m4 j" `
/ q1 Z7 u( m% z7 r: ^5 J) ]值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
9 ~' B, {- z3 ^
" C# N. d4 n) m2 }) J! e- L0 u
/ C( B* v- ?) F6 y编辑:芯智讯-浪客剑$ Q9 Z) A$ N5 V( Y/ r
往期精彩文章
2 w" g4 r3 n% MVR市场迎来第二春:5G+VR云化将成最大推力!
b. ~ w1 f! b" S/ A8 Q u7 D2 z- L7 O1 @
2019生物识别论坛成功落幕:这十大看点不容错过!
0 e8 B" f7 Z" p. Y6 x阿里平头哥正式开源RISC-V架构MCU芯片平台/ v7 {# m6 v4 |$ F+ H; p- K9 \
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
# D& K0 |7 p' B1 t. x( P
# v+ ]0 y& Q+ Q" Y$ g9 H2 b4 H展锐再推4G功能机芯片虎贲T117,意义何在?
9 ^/ v' v+ C: x2 `1 Q" a
9 N; L/ \/ ~5 r4 b, \历史首次!华为海思4G芯片Balong 711对外销售!
8 N7 R% c! Z$ Y- g `* ?; O" m; k: W; e9 T
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!2 e5 z% r0 k" V
6 r0 S- P& u( f
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!: t' T; Y# ^, K. y; Z
" \6 F, x7 J; Q+ ~ h& @; N可穿戴巨头Fitbit宣布撤出中国!6 w9 M2 t4 k6 l+ B- n# N3 y
' [( n: u8 x1 A
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
* t K0 S @3 d/ r% W3 F: f2 g" r' f) T! x1 O7 s9 N4 s
禁令之下,安防巨头海康与大华的应对之策!/ H+ `; x+ P- g0 R: Y2 O: |
3 }9 y6 j* h) ?1 g为应对RISC-V挑战?Arm CPU引入自定义指令功能!
/ L- K2 ?' y1 i8 M/ v行业交流、合作请加微信:icsmart01. _% D7 W/ M' B, ^2 ]* {
芯智讯官方交流群:221807116
0 E" W: k7 R; Y" ~ u, }
9 s& D1 z9 d5 L$ a" K来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
9 T( f3 ]9 H" r免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|