京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 8826|回复: 0

碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature,技术首次完整披露

[复制链接]

15

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-10-31 16:23:08 | 显示全部楼层 |阅读模式 来自 中国
乾明 鱼羊 栗子 发自 凹非寺 
6 \0 _$ z0 \8 b" K1 ~: D0 [量子位 报道 | 公众号 QbitAI
$ _" [7 y7 `- [. U, P& x
9 d, q1 ~! @* Q  m# d0 b7 H
仅剩0.2%的星际2玩家,还没有被AI碾压。
2 d5 }4 ^" S9 v+ w
% M- N# C" r% e
这是匿名混入天梯的
AlphaStar
,交出的最新成绩单。
/ P, p$ [" f' q4 f
同时,DeepMind也在
Nature
完整披露了AlphaStar的当前战力和全套技术:

; X7 ]# }: K# t2 U# Y' x! ~
AlphaStar
,已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。: C7 d9 [/ L6 {

" c( p, g( G6 d; [* B* \+ @

# x/ A. g% W( L( W+ s
在论文里,我们还发现了特别的训练姿势:
) x: H$ {& B3 B0 ~
不是所有智能体都为了赢+ M4 X( n/ \6 A# q$ B; B  h

/ g+ w) H2 m, i5 B( M/ ^. @& s; M' m
DeepMind在博客里说,发表在Nature上的AlphaStar有四大主要更新:
; Z$ _8 c6 V7 X+ p2 z
一是约束:现在AI视角和人类一样,动作频率的限制也更严了。
8 P" Q# ^9 W) ~$ @) m二是人族神族虫族都能1v1了,每个种族都是一个自己的神经网络。: E: C3 u/ k  h6 G7 f/ h
三是联赛训练完全是自动的,是从监督学习的智能体开始训练的,不是从已经强化学习过的智能体开始的。
; h* k$ q  b6 \: W四是战网成绩,AlphaStar在三个种族中都达到了宗师水平,用的是和人类选手一样的地图,所有比赛都有回放可看。
8 V: `7 W0 P, W7 b! m4 i+ C
具体到AI的学习过程,DeepMind强调了特别的训练目标设定:
( |+ k" e8 N. d+ D& x3 r) ?9 E! x1 }
不是每个智能体都追求赢面的最大化。
+ |; H# p% m$ j+ K2 X
3 N0 g# O+ x5 f
因为那样智能体在自我对战 (Self-Play) 过程中,很容易陷入某种特定的策略,只在特定的情况下有效,那面对复杂的游戏环境时,表现就会不稳定了。
$ S6 J# i0 v5 q6 b
于是,团队参考了人类选手的训练方法,就是和其他玩家一起做针对性训练:一只智能体可以通过自身的操作,把另一只智能体的缺陷暴露出来,这样便能帮对方练出某些想要的技能。
1 V8 _. R9 h! d5 E( b) \  A
这样便有了目标不同的智能体:第一种是主要智能体,目标就是赢,第二种负责挖掘主要智能体的不足,帮它们变得更强,而不专注于提升自己的赢率。DeepMind把第二种称作“剥削者 (Exploiter) ”,我们索性叫它“陪练”。
$ b* I3 J- e' d# j1 Z6 c5 `
AlphaStar学到的各种复杂策略,都是在这样的过程中修炼得来的。
" }2 c: |1 |8 }$ K+ N* X
比如,蓝色是主要玩家,负责赢,红色是帮它成长的陪练。小红发现了一种cannon rush技能,小蓝没能抵挡住:
+ v/ t! a8 v$ h$ N+ J- `7 I8 Y

7 Y8 {- p8 f# @( U
然后,一只新的主要玩家 (小绿) 就学到了,怎样才能成功抵御小红的cannon rush技能:
) C5 e6 V( P, ?1 o) x1 T5 v

+ E5 q5 g" Y* B2 V! K% }. t
7 w9 a' m5 U: Y$ M. ^
同时,小绿也能打败之前的主要玩家小蓝了,是通过经济优势,以及单位组合与控制来达成的:/ p+ q* e6 \, Q

" @) b4 w9 G& Y5 R
7 j2 R9 g1 V: S  [3 ^5 c, P  H
后面,又来了另一只新的陪练 (小棕) ,找到了主要玩家小绿的新弱点,用隐刀打败了它:6 E. S4 [0 ]$ x4 w, g$ ^# P

. A% q* J' t0 S- Q
) n& w0 ~  V1 q: Q9 K: u+ G
循环往复,AlphaStar变得越来越强大。3 C) U) B7 x) o0 g
2 w7 k. y: Y6 F; p  l3 r
至于算法细节,这次也完整展现了出来。

0 Z% Q) K9 Y- v& W3 z' n8 {  x7 ~0 G! vAlphaStar技术,最完整披露
! O8 ?& F  \. F0 _  k8 ]" {5 \2 l4 o
许多现实生活中的AI应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。
+ Y# o0 }3 k6 }5 ]) A2 o
而针对星际争霸这样的即时战略(RTS)游戏的研究,就是解决这个大问题过程中的一个小目标。
$ g  I, B/ G! r; [% L5 V
也就是说,星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。
. n: C" @! w  x- e2 Y7 k5 T( n
AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。

" G$ ?2 J# s  f$ v  y# f+ T
7 p+ x* c( H% }% H1 Y
AlphaStar会通过概览地图和单位列表观察游戏。
+ ?$ X* S) c8 Y6 o/ E* e* K
采取行动前,智能体会输出要发出的行动类型(例如,建造),将该动作应用于谁,目标是什么,以及何时发出下一个行动。
* V2 q* c0 G( q  j
动作会通过限制动作速率的监视层发送到游戏中。
+ _. R1 o% t9 g- l4 \5 [' |
! x' t' }1 Z8 l# [
而训练,则是通过监督学习和强化学习来完成的。
/ `( f: @+ O, h8 N  n7 B7 k/ G
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。

- S8 S2 q. N8 d$ n( j, O
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。
6 z+ s2 p8 ^0 U( y+ Z# d
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。

, w6 J7 _( @' y# i$ p$ {' B4 L6 C
而这个早期的智能体,就是强化学习的种子。

7 p4 b' i: g# A( S! `3 \! d
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:

* j. R% h7 u& ?
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。

! b. w2 X. V2 ^: j' b6 O# c3 C
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。

8 _' @, ?  w4 k/ f
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。

. r  o- d/ R$ B; V! x7 l2 v) F6 E
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。

: k! _) }: D9 M$ ]
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
9 Z( [7 W& t9 A" r
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
# S6 r! I' `5 R% {% R

& a) Z  a5 i1 j3 `# u6 B
联盟训练的鲁棒性
, x' u8 _7 @0 c
而且,智能体的学习目标会适应环境不断改变。, M9 [5 P, [3 ?; B) V+ c% h* E! N& g5 I
* q7 g- x  g  _2 a
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。

# M- h( U( M7 h8 B* z' m  n+ B% _
权重更新的规则,是一个新的off-policy强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。

6 W' n' q2 p  T; ]0 T历时15年,AI制霸星际
. y: h1 @/ H8 u3 Z) i' {
) F/ m5 N! J8 z: F. e; b( _$ c8 w. k
《星际争霸》作为最有挑战的即时战略(RTS)游戏之一,游戏中不仅需要协调短期和长期目标,还要应对意外情况,很早就成为了AI研究的“试金石”。
1 e$ u8 b' Q- \' o
因为其面临的是不完美信息博弈局面,挑战难度巨大,研究人员需要花费大量的时间,去克服其中的问题。
4 q, q5 }# o* x0 f
DeepMind在Twitter中表示,AlphaStar能够取得当前的成绩,研究人员已经在《星际争霸》系列游戏上工作了15年。

1 M, e+ `5 r4 h% }% k; w
$ P! ^$ f# ~5 l  d# o0 s
但DeepMind的工作真正为人所知,也就是这两年的事情。

; X% P8 f7 D6 j- Z1 c5 ]4 D" v
2017年,AlphaGo打败李世石的第二年后,DeepMind与暴雪合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,进一步加速对星际游戏的研究。

  f% e6 R. ?" ]. _" Z* T" M
之后,也有不少学者围绕星际争霸进行了不少研究。比如南京大学的俞扬团队、腾讯AI Lab、加州大学伯克利分校等等。
( B; P) ^0 |2 [! C
到今年1月,AlphaStar迎来了AlphaGo时刻。
% `" R# V0 v  J" R* ]) `. ?. g4 ~0 I
在与星际2职业选手的比赛中,AlphaStar以总比分10-1的成绩制霸全场,人类职业选手LiquidMaNa只在它面前坚持了5分36秒,就GG了。
. W: ]% ?: U* P! g. G# L8 J
# r7 [0 ~' X" @* ~  f2 R4 ^
全能职业选手TLO在落败后感叹,和AlphaStar比赛很难,不像和人在打,有种手足无措的感觉。
9 }- X+ Q1 K  |% m: F; w) r
半年后,AlphaStar再度迎来进化。
# q. ?/ @8 c# H8 b) Q# d/ c
DeepMind将其APM (手速) 、视野都跟人类玩家保持一致的情况下,实现了对神族、人族、虫族完全驾驭,还解锁了许多地图。

5 i7 F# ]% C" G1 e; j, l

6 U( G) P8 r+ F% J1 _
与此同时,并宣布了一个最新动态:AlphaStar将登录游戏平台战网,匿名进行天梯匹配。

% F# m5 n0 D! k' b  S& i/ A$ J
现在,伴随着最新论文发布,AlphaStar的最新战力也得到公布:击败了99.8%的选手,达到宗师级别。
* K& e6 U" p5 w  @# z+ l
DeepMind在博客中表示,这些结果提供了强有力的证据,证明了通用学习技术可以扩展人工智能系统,使之在复杂动态的、涉及多个参与者的环境中工作。
4 j+ b3 Y: r2 x
而伴随着星际2取得如此亮眼的成绩,DeepMind也开始将目光投向更加复杂的任务上了。
2 }+ Q; T; X4 f, E* v( Q0 M
CEO哈萨比斯说:

$ d3 i7 P1 `$ J3 v8 v: a
星际争霸15年来一直是AI研究人员面临的巨大挑战,因此看到这项工作被《自然》杂志认可是非常令人兴奋的。. }+ i+ h+ H8 D7 V$ ^$ u
这些令人印象深刻的成果,标志着我们朝目标——创造可加速科学发现的智能系统——迈出了重要的一步。
0 H9 Q0 r3 t  |- B
那么,DeepMind下一步要做什么?
) }* s+ b1 D& G# f4 u( z7 _
哈萨比斯也多次说过,星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。

% z2 S2 C* Y2 K5 M
但也有人认为,这一技术非常适合应用到军事用途中。

$ d6 E! P2 x2 ]& w+ P5 L6 ^0 p
不过,从谷歌与DeepMind 的态度中,这一技术更多的会聚焦在科学研究上。
3 v6 A/ C  {* Y% ^8 o. Y, E
其中包含的超长序列的预测,比如天气预测、气候建模。

/ k: ?! i( F" E0 L8 `# `1 B( {/ j
或许对于这样的方向,最近你不会陌生。

8 S- ~& C$ n% o; Y! i
因为谷歌刚刚实现的量子优越性,应用方向最具潜力的也是气候等大问题。

" w: N' x( a& o" k& V( V$ r: f
现在量子计算大突破,DeepMind AI更进一步。

" \& T# A* m, s' X2 ], B! Z
未来更值得期待。你说呢?

8 A9 h' P/ G( J( [One more thing
, H  ~) z: f( O! Z: Q3 P' ~) B/ ], q: d5 J; G' ^# }. v9 V+ X
虽然AlphaStar战绩斐然,但有些人它还打不赢。

7 _* q  J3 w) I- U& M9 P
当时
AlphaStar
刚进天梯的时候,人类大魔王Serral就公开嘲讽,它就是来搞笑的。
: j4 H& S8 [/ ^  m

, e5 O9 ~( C+ u; A
但人家的确有实力,现在依旧能正面刚AI。

& `; j9 ~( t, N1 D' J& Y
不过,敢这样说话的高手,全球就只有一个。

8 P% G8 Q+ n- y+ A# @传送门6 O6 {7 P: `$ o7 i) W0 r) Q

0 k! O1 K2 }9 P  }, P+ w) o; ^
Nature论文:$ o3 r3 v+ P/ v/ R# f+ Z, c
https://doi.org/10.1038/s41586-019-1724-z
0 {3 q3 f$ F* O
论文预印版:
- x' O7 o4 ^) J$ _  uhttps://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

( T  y0 }: J% J/ M; M* q$ ?
博客文章:

( O. Q* X* d* o* x
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

/ I/ o! @2 k2 ^, X
对战录像:
( X9 @& ]8 `' p7 m$ w. ihttps://deepmind.com/research/open-source/alphastar-resources
; M) W. m) q4 Q+ X2 x" W6 H

! L2 h4 k! y7 u7 y6 x2 w$ V$ a大咖齐聚!量子位MEET大会报名开启
0 M" U4 L5 ]/ A* B量子位 MEET 2020 智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业峰会!VIP票即将售罄,快扫码报名吧~7 ^" Q# D! k. S$ m0 F* Z, R
榜单征集!三大奖项,锁定AI Top玩家' X& D- x4 J6 f! u( h4 }2 n; e( Q
2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!
' d1 x# P+ @% Z* K7 b% E量子位 QbitAI · 头条号签约作者  r* C  E3 @7 ^! c
վ'ᴗ' ի 追踪AI技术和产品新动态
9 |6 I$ l$ f8 h  A" v4 n( G喜欢就点「在看」吧 !1 @" s7 Q4 G2 z) Y7 N

, P6 n. O* o7 b( U: f
, @  L- V7 K  r8 I+ r
9 f; N" p+ ]6 [6 y2 o' Q% Q# X' r0 p
7 R" F7 C% j+ z) P1 |' Y+ N* @
来源:http://mp.weixin.qq.com/s?src=11&timestamp=1572508805&ver=1945&signature=ufDgJF-ttdwWgSRz4GvsbfZFt8aLHUpcC9yHtzomlOL0gOuaJsxc735aQnmgAG4n173vkU87wL1VAWURHlPQMQpVqYLRqYVHonQrB2VYxo0tKwIa7RrwLt4ddob2CbZI&new=1
* J3 W! E/ g  k4 T1 K1 m7 u4 s# A* I免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-1 22:46 , Processed in 0.049221 second(s), 28 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表