
0 t# a$ f+ }9 j, |* S9 \: N) o4 G6 r# j! h, r
) { O9 c# |) t, z ^
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
4 e/ D; S: V% Z8 w t0 R( R+ {( ~) b* [/ P: {
7 c. D b% c! _& I+ I8 A5 [/ [
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
$ m S+ h6 K9 c. L' T# B6 `- ~) \. F9 X1 B( ^9 w
1 ?3 p8 N2 o* D& Z" s今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!% o( C! K+ p f% G# B, G
4 U7 i& C0 H. y* E$ F# ]! u
4 A8 E5 `% |$ v10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!8 a3 P3 D! z5 Y6 n! o4 J0 D7 {) b! |
) \( U$ n9 b7 d; v* B
3 g- G3 B6 Z: Y 1 g$ D, M, N: U s& Z' u
% y* |( ~: G5 t( B# v6 P: X, F
0 ^5 I6 x6 C! G2 L: q此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
, B3 H0 L' d! R! [* I/ S' u$ t- @$ a% v
+ u: B9 L* [$ _, {
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。' Z4 `$ T4 H/ P g
* F% O% ^& x2 g4 E8 M3 {6 x$ ^5 Y }+ {
6 }) E3 K8 y4 R
加码AI计算,Arm发布Ethos系列NPU IP
@1 {2 B& x* R7 `' o7 m. B: d1 B% K' w3 {, ?3 S
2 Q# C# T9 J+ L- y根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。6 c( B0 c/ O& E8 {) H$ K* G W7 b
9 ]- g. V1 x3 J/ b5 h) ^! R0 o! i) h- o4 f8 t8 T Y5 i+ e# _4 ~ P
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。8 B* s4 p; {! @' x0 J6 ^7 g! n
- q m% G q( s8 D
& h% i8 B- J6 U
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
. U. \; \8 G( V! P' S4 i: J
6 V3 e7 I( s# x& {( [' f9 v& F/ D" v/ a5 t
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。) L; [" R4 y ?4 Y. L6 G
`- j2 P1 W. I8 L- b
4 I# z% V) G8 E2 n% s" g2 x
$ T2 J6 e/ V9 ?$ k
& f$ M* q( b, S3 m% V
! ]: L$ U5 i0 J3 Z( N" a: U3 W" z& i8 y3 e I( f" e2 A7 J
2 G6 Y0 W5 D& F- Y! \. g今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。8 K& l- j$ p% ~& M% y" ^& X: Q! D
' _. l, C7 X$ K# b- F; w) J1 g. F
0 R, K7 t/ ~1 M& m9 X: d ^ % V/ n: b. K2 w. y, Q) p
U, s8 Z' o, t* J: l8 l! q( f
! z) U, o% {. z5 n" S
: f w" g5 C* uEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
4 K% Z5 g/ X: r: y
/ M( P0 D" N d; Z( K: T根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。4 d/ |. V7 n6 ?$ ~
5 F+ o) g& N9 v2 g
/ p' P- f$ o* e4 n: U$ V% s
& w+ A7 ~3 O5 @! A: _在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。7 R7 w0 k. _0 z) [. G
0 S# T. j) X, a( `
7 o$ L' i! r& h, j, f: u9 w
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
/ x* d) H, y/ I. |8 j/ i+ C4 T4 F
# Y7 w$ D4 E+ u
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
' U3 ^* X1 F+ w! S4 Q3 A7 I; t
( e* ^" q1 f1 y% a/ I& W# n0 h需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
$ C& w( E( b. h3 o
( c2 N) W" o7 ]! B; ?& m* g8 s8 g! r, I# v4 ?: I3 M
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。( K9 r( T% i! n
; k p/ \0 `. I4 G
8 L+ {5 Q4 N# I, [8 U
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
/ x$ E* M# U- [: M+ S- O" ~5 J6 m2 W- w7 _' d8 p y
& @# l0 B2 P; m& F# b
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。* Y( e/ k! ?8 g$ ^- I
9 G) T: B! s$ |
( Z" J1 t8 h. [1 F1 m+ D5 ^( [
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。, \/ B0 J3 Q& Q4 m* L' e
+ M$ T+ m% [! C% C) i
* G# @& ?& t3 m# }1 ~7 B
开源的AI开发框架Arm NN# m9 @1 n6 ~" j: g
2 x/ E2 c! x) i8 u. _
" f$ u+ K) l4 n ]0 A5 Q我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
* ?# K/ Q' d, P* Q* ~( }: I9 k: U2 U) V1 g# r+ `" _ s
9 P4 L! V- I$ F4 k而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。+ i1 z$ p& S* L; S+ p3 l% T: G
# g5 }* w% E/ s6 v( `* b: H8 Q
+ m& O1 N8 x6 n, M* ?" n - z" k% C! B j% c, n( s# i2 G8 ?
% C! C( k* w+ D2 f: y9 ~+ p2 \
9 `3 w0 X& s/ t2 ]; ]据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。 @* ]2 \" }+ N* I4 P+ U9 }& C) t
0 i& p+ C; c. |9 `! m' d6 j' j3 S
( X. u [7 F4 B$ [
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。8 ^ Y* S+ U& N+ Q" m9 a# ~
k0 ~8 F5 Y( ^% m5 V, h0 `+ w, y

- `2 u" W0 b% d( Y3 b" W
. l% W& e- x1 U! w$ x" `" V" J/ m/ L1 N. m
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
3 \0 l8 k, A# n0 @( p( }# R" o. h/ D" O# u" T
5 X2 s4 |- [- b9 rMali G57 GPU:为主流市场带来智能与沉浸式体验9 |8 v4 b4 k* F0 g% i0 | r
+ u" Z$ k+ w* w' O' J
" {( E! T. ~5 x3 W" V% j( S
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)5 `3 \5 Q! _% T2 g6 a
, t! h$ x/ m. g6 K5 ]! W& [' M
9 [. h; {1 E+ K& r* E
/ d+ \5 u& w& l" F0 A7 E7 R7 x h1 T5 x
* P6 N8 Q% `+ o: A8 k
( ~+ V3 z$ X5 X9 P. `据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。8 K' \3 @, T' @1 X( y! N4 M
4 |2 \4 [3 d6 v4 ~4 ]! {3 a
8 V# _" h4 L3 O IArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。) `# j' p7 U& Z; t" r" K2 l5 F4 T7 Q
/ O) N) n% Z! f4 z/ x3 Z; W; j
$ y% x" n1 @. E, p( t9 L: h
Mali-D37:Arm单位面积效率最高的DPU
" [+ W' Y- n9 m; r: u; S% Z1 {
" _5 P5 J0 h9 Q& M0 ?7 j8 \ t# U {7 ~: O/ ~9 s/ t/ y
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。 B5 y) Z2 J8 c: @% u9 b/ k
0 C7 ?% x) J# c/ W* k% ^( j a, E! L- Z# i2 \7 G1 C' v7 ^

$ p z# A/ W b2 x! p1 P7 ~( y
4 O' u4 E! m. T3 h
; Q: g- `8 H- K& d( v据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。- W a! ~! X, O. E" R
+ l4 V" k# Q3 t3 r r
/ ^7 k9 {# }9 H+ F5 p在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。) F; C- ~) I# {
7 E- E5 a4 X5 M$ l, z% ]3 x
: C! [& N4 K! r) V3 J
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。4 D- `; z: t) H5 p6 o
2 E% _0 U/ a0 j3 |% ?: K w
- M( C1 M _% l P$ ~: {3 ` mArm的通用型NPU能否获得成功?
% u W3 Z8 e7 ?: D- p! s
% }) k; o: X+ z! z8 D9 C, V% B5 E! o: W4 L6 {; u
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
. z& B7 q, V0 _ d" z. `) u8 p1 O; R# b5 T! ]' ]7 S
* Q+ n# I# G/ S对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。9 s# r0 g- e) y5 q, k! }7 D6 o
" b7 ?" C& s: q+ f+ q( h
1 w' S2 }2 z9 m$ J2 i" \# o
) R$ o% L& w7 s. G- i8 T) W- S
8 [! `4 y: e" u0 ]. n+ X. H
8 f4 J/ W/ ?' Z9 c在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。# r: g1 Q# S* t- u- L2 q
' f8 v$ ~3 J, W, w: E8 _, J0 s8 @: X# M8 r m! m. d1 P1 H
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
, Y# ~4 ?! f' f e4 \3 a$ v# p# p) g" `% t
9 `' H! ?$ t# d, u* q' \* X) z, N
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。+ q$ I' |% o) U# D9 J6 }% s
5 W0 S0 s7 j) r/ ^% K9 j
. \" H# m% ?* x0 | `& t$ ^ h最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。4 h4 P; O+ @9 H! g
4 K: f$ P ]/ i( H
4 a. ~+ Z# j5 c6 C" }2 l
4 Z& L# x& [/ F9 G4 o2 \8 \: Z
, M; m0 B* G8 r+ z/ t+ E) e' Y( T
" b9 e0 f. o( I* \) M, L1 p值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。! B+ j; V% c: w0 Q$ i
; j! s' P( ~# g- a( f$ v6 V6 C7 i: W+ j% |) u& ]$ x! J/ l
编辑:芯智讯-浪客剑! c3 t5 s/ {1 B8 a
往期精彩文章3 H5 {2 ~9 V1 l" K! g
VR市场迎来第二春:5G+VR云化将成最大推力!
' ^! Y- B) I$ c2 {: P* V. J/ J. m% \0 h- A
2019生物识别论坛成功落幕:这十大看点不容错过!
) h1 I5 `! T3 _% {5 Z# I8 `阿里平头哥正式开源RISC-V架构MCU芯片平台3 a J$ j8 n! P
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?* |3 g( J7 c* C5 i
) H( N6 ]' X+ H展锐再推4G功能机芯片虎贲T117,意义何在?# y) w( n/ E! G& U
' c, P- W6 f& \& P! j6 ~8 X$ q9 B9 @
历史首次!华为海思4G芯片Balong 711对外销售!
, I( F" k1 z; m0 X
- X; y5 P' v; {+ K% j( B. ?不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!! R8 R6 w+ c% |6 P) m" {/ [
0 H1 h% U5 `6 }
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
# v- b6 W Z, `" }9 w& I. C) U9 U7 E2 a
可穿戴巨头Fitbit宣布撤出中国!* B: U- g# X7 D+ {* J% c
/ H* [3 Z, ?& U
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
% ^* ?( v2 v) g* e7 d' l! J# p9 R+ S! I0 \: Y0 O
禁令之下,安防巨头海康与大华的应对之策!( Q x$ m- t5 g' R
% o2 L, r, j8 ~4 f3 x
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
* @: h8 E g8 B行业交流、合作请加微信:icsmart010 P1 d$ x3 A% u% l% p5 M4 p0 Z6 O
芯智讯官方交流群:221807116 y6 I( Y+ `1 J2 l. s. L# [
; c; p4 @' K( w( v& F* R来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=11 K6 B# A! `5 Y2 ?9 W. a6 J
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |