|
|
: b6 N' L. F4 q
% S" ]" p+ B7 j) T, i& X9 [6 q# }; |* c( j) _
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。; w- ?$ A7 I1 M1 n c1 d3 K# O
3 M1 M# K4 {$ I9 E D U6 O+ R" k, m: b+ H5 {
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!% Z& q3 X5 q {5 C1 u9 k4 K; ]
; ^3 C% _7 q, O: m
+ _% ?* Z( U" e G/ ~
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!& S0 h8 N P: U, B( D
5 g1 [7 M0 T4 S v3 y, [
6 |( U) ~+ Z! T3 i$ V6 L" o M
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!7 D1 Y% I; {1 r3 X# d2 K y
% m' L, [# O- f0 _! b# s% R2 m8 w5 Z" Y5 \' G- Q, E9 \. x0 X( B

3 |- _. ~/ t! \% q1 d9 s( }+ z3 ~4 i v
9 O: y! Z/ u7 ?& u, p
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
) b/ s/ z! B8 o- D% I/ W9 t/ i7 r$ n1 M. A! q
% f, Y* J0 y: O# @8 y& C& B M
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
- j1 C3 u. b8 S+ `- f9 R7 J, w8 g; d3 M$ U+ g$ g" }. @$ Z
& e- e" B# V8 d) H8 h
加码AI计算,Arm发布Ethos系列NPU IP
# W# y" b: w+ b8 O- q9 \, m' h0 t
! ?* g5 k- s( X0 @. J6 D6 S$ z( P$ ^8 Z: Y6 u
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。4 G4 }* d+ ]9 ^, t! c
# t1 W6 A5 P7 g) e: j+ O& ~
( G3 |& r6 _: A3 r# ]* I$ G+ {
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
5 h3 m5 h9 {, B2 i: w. T$ g R# {; T! }. W
0 }: U( W* g4 o1 ]5 t
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。/ U6 z. t) e7 Q% |
* P; Z" O! R3 f0 \* r8 x6 K* \; R
$ J4 I/ x3 g% ]; B- ~
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
1 s# y. ~2 x! o m
, g! _% T) H" q
3 D, v5 f0 C! N0 B5 { H1 V7 F+ U+ |# q
( Z' L, M$ G1 i/ `! U& D: @/ \' D
3 o. }: V: i1 y( S! s. ]
3 I9 J0 ^: h* n
9 a1 x" g4 }+ ~: J! p* a: L
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
. o0 o$ i+ y* K- ~2 m! C
; l: X6 o6 G$ \8 l5 ^1 ]0 {& q! H8 ^
3 M- |6 y# v( Y2 {$ \; x8 f H- w1 u) _ 9 m$ b. V# |! {8 c. q5 |
0 e6 o. e4 R/ L; T( |, B
/ i- @8 P, E: ^" k3 P2 M7 G
# ~; R' I0 _5 U2 j) M8 }
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?" s! Q6 n; ^( B4 C* w# ? l
) Y& i: {( w, I3 v6 Q V1 c j4 p7 q
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
' a1 e5 m/ r6 s/ I2 [( O
* ~9 u- _( `9 W- a- _9 R
9 t" M% y# A1 \3 I" Z3 }! Z3 x
$ @! [5 S8 g, A; X# L1 } v$ J在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
7 X: h: y u1 H$ R2 M6 m7 ?* r; B- y6 ` _$ h' ^ K. ?
+ B& g* W9 G# @9 \/ b在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。9 A( N) ~; {: I# L
# C' O7 t V1 @" s$ ?5 g/ [2 F) P) O0 _+ J0 E1 }2 b6 I/ v, c
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。5 \9 r! ]( J2 t# Q( C6 u7 D, H
( \2 n J N- k! e) A: L4 A( M
7 @7 t4 M! j# X3 u$ {7 p' o5 h- o1 f
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
3 E; [8 a S' M6 C o* O( {) ?/ ?4 [* _8 ]; f* B9 M6 I
7 K+ z5 o: q( ?7 _3 m {6 WArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。% ]- [% _+ R1 d0 K" \5 \7 P
; G4 ^$ c7 J, u; [7 |
/ O5 t3 w4 {( A- s+ Z$ W/ q
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。2 L0 z& @) g) ]+ r
3 o0 \8 w( ~, l1 ^7 M. C7 z5 M+ |/ y$ v- J# z8 b+ G
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
% p, G" w6 c) V r. q0 ?7 X" |* L, z
n4 x7 J1 w3 `" H# Z. B据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。5 k2 r A; Y5 V: m
6 C, B/ y$ E. {3 a/ O0 C
5 ^8 d) I) G) V开源的AI开发框架Arm NN0 d1 T# P1 p7 V' G1 S8 t& d
# c$ g8 X3 R7 Y6 S0 \6 p
' N! {! O# z; u& f, @我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。: N% }* l# g0 b8 ^! a; f- v2 [
& c6 o. P E& i1 Q, T: Y/ h7 m
0 Y! e6 x. p1 y ~+ u7 U而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。, u9 l4 E* w s# a+ @7 i3 r
' n8 }( O# Z X' }! t" C/ K) u; D) T- I2 S

' w. o$ ]+ r8 ~# G$ Q, }3 l9 R, B2 C4 }6 v7 b$ O- G4 {! K
5 D/ m4 _! e! b/ `5 U! q
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
6 D8 X) ~8 t1 M: r/ f, O4 {+ K/ D/ y5 i/ X8 f1 u1 J
3 o2 P- F( }* w# aArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
# a( ?. b/ M' q8 X) C$ `" _4 D; O- x
8 `, B! |- D9 k! M9 \
, o. Z+ O: i- U2 d
( U' ?8 Z5 g; A$ \2 F2 d' ?! a
/ ~' \+ F& M# K6 e0 c此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。9 i) w# V- D5 ?) T6 e9 d) _
' c4 [3 z' f; l$ A4 ?; n) Q: d: ~; h5 D8 T
* u+ j" W3 `. `) Z# Y' vMali G57 GPU:为主流市场带来智能与沉浸式体验, T1 P _" O6 b
* n! l4 T% H- J& C/ K& E9 D
) A, @4 q; l% a6 b& n6 _- Q
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)* v M8 }- \, ~) w" G) C' V. [
( _4 k* E) B# r, ]
; _3 h5 o: P5 k ) l' W G/ k+ K6 g
8 d5 m2 w0 y4 i# x( ?+ n
% i- y7 g9 |+ ^5 n据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
: H8 b1 i) ~% s% F. Z5 D' D( X% w( q! t
7 `1 X6 ^2 ^6 U: }" K) I5 x4 ^, Z
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
9 P- T8 Y9 L0 |( p( ^! e% J- a0 y. M( v, }7 e% H3 l4 B+ f
. Z7 L. V* [! p0 p6 A
Mali-D37:Arm单位面积效率最高的DPU
z5 M% ?* U# n' B: T2 X7 s6 P4 K. X! r' q+ Z# V
0 E' M, F# s( I5 q+ P) c
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
0 ~" ~ _3 s$ f! u, a8 B2 T9 p! C$ F" m0 _
8 B& m2 S; X# X7 J# d( b
, p$ L% b3 B3 S6 t5 D1 z8 F: V9 W& R( n' t5 w" t) Q9 R
( W6 c5 l0 M4 i$ i8 _据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
# I2 X: ?+ ~' m2 R/ P) T7 ?7 f# X8 i) o8 t( E' r+ C
4 K7 X- z* s" W在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
' T, Y: t5 d3 n. Q3 G% V, q* R% l1 r8 I; V' Q
! U: ^! Y. z! H/ c6 |
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。! \ g2 {+ {3 y) L/ \
* S# {, ?7 S: M, U1 Z4 z* x. T* u( o9 N7 r; p2 t
Arm的通用型NPU能否获得成功?7 ~ m$ w c+ A8 r9 S) a
8 R8 {7 }+ y! v8 c9 g
* C" a U( L2 w* z( _! E6 @从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?4 q& z$ o% I/ K0 }
9 [5 F! z+ k& Q8 u' `9 w" v
& h2 X: V1 o5 n6 N7 t2 E对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。5 b$ I" l% C! e h
+ [1 I7 O0 |2 Q/ K% {" C
; J: z( Y9 ?" }3 J6 x0 H
6 U+ Q! \* v4 `; g7 e/ z: J4 I3 }! R# j- l
# j/ q' p3 p( F1 l' b, Q
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
; t5 B8 I2 w t7 A+ y d9 `/ c. D; \1 o5 X* [
; O' S" x* O8 v }% f7 m另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。. ~: q- V, E8 G( Z5 k' m
3 i* j6 I6 X8 T
1 u; y$ X: h8 m1 | y8 E另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。* U6 b& N& B7 w+ @- ~7 v* x
" m6 Z V, Q2 F! t' E/ T% ]# N* Z* T0 I: P: }
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
" Z% ]5 K+ B" e* d: |9 E! f; h, K& i o# ` M3 d( c
2 _ f7 L1 ]9 z2 T, p v/ K0 k
' ]! j# E8 \# C; v, K9 s# @$ ^8 U# ~6 |+ L$ P
; N5 T8 |5 w9 \值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。2 K4 `& |' {2 \+ O0 I2 l; |0 f
/ x: J( l$ b% X( Y
5 a1 Z8 O8 q* e. Q, N% v
编辑:芯智讯-浪客剑
; g6 Q s' c6 }( t往期精彩文章
# E. o2 T1 E% o1 q! E! K( oVR市场迎来第二春:5G+VR云化将成最大推力!
( q7 L( z& e6 X3 ]3 K
a! B' N- e: a) m2019生物识别论坛成功落幕:这十大看点不容错过!" Y) _3 N! n+ v9 T$ S2 W3 S
阿里平头哥正式开源RISC-V架构MCU芯片平台
. @$ K0 j8 ^. I2 O( ?; C首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
d# x2 U( n0 d, r( g6 j- J0 ?; a7 o+ q) t0 U
展锐再推4G功能机芯片虎贲T117,意义何在?1 Q0 o4 T4 J. q, G# h) ?
/ D" P# [( s& R: A4 e5 y/ j7 p历史首次!华为海思4G芯片Balong 711对外销售!
, T" q3 B# A2 T$ |) s8 g; R1 G% O7 M2 J8 N) Z
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
V. J& @7 B" X0 r8 m
# P0 G2 C! r: d6 e' Y巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!& Y* P8 r6 d" K; [6 J2 o
* f3 N+ v, I) Y+ M }9 K1 C2 w
可穿戴巨头Fitbit宣布撤出中国!2 ~% J$ k8 R2 t
. o+ f1 `8 p! c1 |: q$ b2 F- `! |; _
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
/ M' x# L$ [3 x T# H$ u0 M3 c# W) k1 |. \; |% c$ l
禁令之下,安防巨头海康与大华的应对之策!/ M9 k3 t$ q7 H+ J! f# b8 Q
& e' \- Q6 r$ Q9 d+ ?+ @为应对RISC-V挑战?Arm CPU引入自定义指令功能!
9 e! {; c/ p5 @6 N" r+ \8 U' F L行业交流、合作请加微信:icsmart01
$ k6 K3 ^9 b: d. W芯智讯官方交流群:221807116
4 m$ o4 h5 V5 h" p& b! i/ F2 c+ z; ]+ H# {5 ?
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=13 f/ l) B) Z( V9 s5 i" X4 X
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|