京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 8855|回复: 0

碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature,技术首次完整披露

[复制链接]

15

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-10-31 16:23:08 | 显示全部楼层 |阅读模式 来自 中国
乾明 鱼羊 栗子 发自 凹非寺 
- C1 v  A# F% m- F2 z2 h量子位 报道 | 公众号 QbitAI

6 n9 R( w' `2 `) D' i* t+ f8 g7 q) t' @: b
仅剩0.2%的星际2玩家,还没有被AI碾压。4 x) W  T; l! E& R, n
+ q4 |0 M1 @( y3 O+ j$ B# [
这是匿名混入天梯的
AlphaStar
,交出的最新成绩单。
( n8 _2 w7 X9 |' u: Z( g2 |
同时,DeepMind也在
Nature
完整披露了AlphaStar的当前战力和全套技术:
2 i+ ^4 \8 g' z
AlphaStar
,已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。
& F% r" B$ U" f( S& {' g! j& k) h5 t

7 W/ f2 \: p, E* w9 v& \) R* K1 u
" Z. _' T% n3 C4 F
在论文里,我们还发现了特别的训练姿势:
7 z4 ]" W3 h: q2 i, ~/ `
不是所有智能体都为了赢* D+ s/ ]3 K3 w0 c$ S# T- j9 `5 i
# n8 i+ `8 b. x( w9 n
DeepMind在博客里说,发表在Nature上的AlphaStar有四大主要更新:
. `$ K7 R) I( ~
一是约束:现在AI视角和人类一样,动作频率的限制也更严了。2 s$ X& n# n/ s( C) u# R% c! I2 E
二是人族神族虫族都能1v1了,每个种族都是一个自己的神经网络。2 t* c" `0 _& ~' O+ D5 a( [6 a
三是联赛训练完全是自动的,是从监督学习的智能体开始训练的,不是从已经强化学习过的智能体开始的。
; h2 j% W0 R& f+ q) x) t四是战网成绩,AlphaStar在三个种族中都达到了宗师水平,用的是和人类选手一样的地图,所有比赛都有回放可看。2 }" [  V4 H' ^0 I2 A' h
具体到AI的学习过程,DeepMind强调了特别的训练目标设定:

# |5 H3 x" h  J, i9 \, K
不是每个智能体都追求赢面的最大化。

* ?9 |: r* C. w6 k( S

% |8 t* d8 u8 G5 D9 h
因为那样智能体在自我对战 (Self-Play) 过程中,很容易陷入某种特定的策略,只在特定的情况下有效,那面对复杂的游戏环境时,表现就会不稳定了。

6 ?# T5 z& L5 D2 S) W. W8 J6 m
于是,团队参考了人类选手的训练方法,就是和其他玩家一起做针对性训练:一只智能体可以通过自身的操作,把另一只智能体的缺陷暴露出来,这样便能帮对方练出某些想要的技能。
; n& x! t: w8 J5 _4 C1 x
这样便有了目标不同的智能体:第一种是主要智能体,目标就是赢,第二种负责挖掘主要智能体的不足,帮它们变得更强,而不专注于提升自己的赢率。DeepMind把第二种称作“剥削者 (Exploiter) ”,我们索性叫它“陪练”。

' y. m& W/ _" R+ }9 f' s
AlphaStar学到的各种复杂策略,都是在这样的过程中修炼得来的。
' J! d4 B) w0 Z. F# S, c2 E8 e
比如,蓝色是主要玩家,负责赢,红色是帮它成长的陪练。小红发现了一种cannon rush技能,小蓝没能抵挡住:
! M, [, ]( p1 f5 T

$ F2 R* B0 D; g
然后,一只新的主要玩家 (小绿) 就学到了,怎样才能成功抵御小红的cannon rush技能:7 A. A7 x  f0 b6 p6 @5 b; ~9 B+ h* h

& K! Y  `" v/ A0 [  V- q! X8 B

0 f5 e3 _% j' g! T: U+ X0 q7 J7 F  K
同时,小绿也能打败之前的主要玩家小蓝了,是通过经济优势,以及单位组合与控制来达成的:2 }- O7 K0 e$ d" S
# ^0 Y6 v( Q3 l9 p& e: T  W
* C2 P: M! e7 a2 }; C1 i
后面,又来了另一只新的陪练 (小棕) ,找到了主要玩家小绿的新弱点,用隐刀打败了它:
. a! a0 ~2 v5 P3 y9 t# n

& i0 J/ r( ~7 D

  P$ Q# G' M2 b  D$ A) m# s8 O
循环往复,AlphaStar变得越来越强大。
0 r- [$ n% e2 O" O9 P, h5 T
* x7 V7 K' N% s2 Q9 E8 P
至于算法细节,这次也完整展现了出来。
6 g( ]- h* |$ D2 _' s) U9 U
AlphaStar技术,最完整披露# @7 B! g* h8 q2 O; P) m
/ n" \5 U! K6 ^3 G: J9 Y
许多现实生活中的AI应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。

' ?; {* P* I/ B/ \
而针对星际争霸这样的即时战略(RTS)游戏的研究,就是解决这个大问题过程中的一个小目标。

7 U! X* _$ m0 L9 z, F- z
也就是说,星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。
# a5 {3 B+ \: M) ~
AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
" V  o$ z' i5 n0 R' p) N

/ U* c- C4 Q! x0 d' c
AlphaStar会通过概览地图和单位列表观察游戏。
+ y3 G" T0 Y4 {0 \$ K
采取行动前,智能体会输出要发出的行动类型(例如,建造),将该动作应用于谁,目标是什么,以及何时发出下一个行动。
1 L/ F4 m1 Z& m- A# E% T
动作会通过限制动作速率的监视层发送到游戏中。

9 d. ]7 {) o6 ]8 \

3 s/ S8 C/ q: a
而训练,则是通过监督学习和强化学习来完成的。

/ |. Q2 c+ b0 p7 U: o2 h" c
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。

0 b( h+ j/ E9 w+ u, W- s- g
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。

0 A4 Q/ X4 R0 [3 q) K5 E4 v! b
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。

+ z6 y% z2 P* z' g) Y$ A* `
而这个早期的智能体,就是强化学习的种子。

7 d; p; v9 ]# {4 P7 @
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:

" X! J8 x% R! O7 \) ]0 M) ?8 z' y6 i
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。
! q8 y2 I! z6 F2 t- G* V- `& U* \
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。
+ g! I4 J' X3 E) P
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。

! j. J7 Z% d0 L' n8 ^
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。

, N1 [- g4 ]5 i
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
9 A* }1 y, {4 r8 p$ |  F: i
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
8 b& D5 D# z0 I. d
, d$ B7 _, A7 U" J; {! ~
联盟训练的鲁棒性
" K) a& l/ }5 c  L# ?
而且,智能体的学习目标会适应环境不断改变。
$ p4 y/ X( L+ d
! S# W: r2 M1 g
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。

. m) l% u3 `/ I/ ]* X+ e) {
权重更新的规则,是一个新的off-policy强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。

5 [9 `" a3 s. h2 v6 d7 [历时15年,AI制霸星际
% S2 e9 o  X- I8 s4 C. M
- `! t3 X4 @7 i
《星际争霸》作为最有挑战的即时战略(RTS)游戏之一,游戏中不仅需要协调短期和长期目标,还要应对意外情况,很早就成为了AI研究的“试金石”。

) V: t, n* e8 I9 v
因为其面临的是不完美信息博弈局面,挑战难度巨大,研究人员需要花费大量的时间,去克服其中的问题。

+ Y* ?1 q7 a: r
DeepMind在Twitter中表示,AlphaStar能够取得当前的成绩,研究人员已经在《星际争霸》系列游戏上工作了15年。
0 r; W) y6 P. W" C! Q9 b$ Z( {6 n

) r$ d2 y- T2 X/ Z" m% l/ T
但DeepMind的工作真正为人所知,也就是这两年的事情。
4 v+ i3 [+ i' |
2017年,AlphaGo打败李世石的第二年后,DeepMind与暴雪合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,进一步加速对星际游戏的研究。

; c' E* T% I6 h
之后,也有不少学者围绕星际争霸进行了不少研究。比如南京大学的俞扬团队、腾讯AI Lab、加州大学伯克利分校等等。

& _0 _+ C6 X2 u3 Z0 _* B$ ~1 F, P
到今年1月,AlphaStar迎来了AlphaGo时刻。

/ F2 j, X; K0 ?; T
在与星际2职业选手的比赛中,AlphaStar以总比分10-1的成绩制霸全场,人类职业选手LiquidMaNa只在它面前坚持了5分36秒,就GG了。

7 B$ S6 z5 v; `
/ @/ u! u- w4 e& M) {* r/ H1 u
全能职业选手TLO在落败后感叹,和AlphaStar比赛很难,不像和人在打,有种手足无措的感觉。

  a6 k, z# Q4 t6 b
半年后,AlphaStar再度迎来进化。
9 L" V7 p+ i$ \' o' j  K* J0 Z
DeepMind将其APM (手速) 、视野都跟人类玩家保持一致的情况下,实现了对神族、人族、虫族完全驾驭,还解锁了许多地图。
/ e. ?( s& [% o$ m
: O# H3 C1 Q1 c; E( q
与此同时,并宣布了一个最新动态:AlphaStar将登录游戏平台战网,匿名进行天梯匹配。

/ ?' E* I8 ~; u  {" ?' l
现在,伴随着最新论文发布,AlphaStar的最新战力也得到公布:击败了99.8%的选手,达到宗师级别。

0 y2 e% q# }. M
DeepMind在博客中表示,这些结果提供了强有力的证据,证明了通用学习技术可以扩展人工智能系统,使之在复杂动态的、涉及多个参与者的环境中工作。

1 q  F/ O; v- ~$ c1 E
而伴随着星际2取得如此亮眼的成绩,DeepMind也开始将目光投向更加复杂的任务上了。

- X- p+ X% H/ k6 {* P1 h! I
CEO哈萨比斯说:
9 l( E0 k" v4 H( |$ U
星际争霸15年来一直是AI研究人员面临的巨大挑战,因此看到这项工作被《自然》杂志认可是非常令人兴奋的。
0 u5 @' T" s- n8 L这些令人印象深刻的成果,标志着我们朝目标——创造可加速科学发现的智能系统——迈出了重要的一步。+ z" n0 T, H0 P
那么,DeepMind下一步要做什么?
7 d2 M0 a9 @" t- y. V' |6 `
哈萨比斯也多次说过,星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。

, f$ t1 O% w  e
但也有人认为,这一技术非常适合应用到军事用途中。

4 f1 r# {3 Y  C; J1 ^
不过,从谷歌与DeepMind 的态度中,这一技术更多的会聚焦在科学研究上。

3 u% d) N1 Y) s' e8 v- n' T) N+ e
其中包含的超长序列的预测,比如天气预测、气候建模。
4 X+ W( `7 k( y* T7 X
或许对于这样的方向,最近你不会陌生。
0 g& \  b! w( [+ g
因为谷歌刚刚实现的量子优越性,应用方向最具潜力的也是气候等大问题。
4 D; N* W# ^7 i' F) s9 {! e: F6 Z& a
现在量子计算大突破,DeepMind AI更进一步。
) f: a9 {' ?9 @) ~
未来更值得期待。你说呢?

! w9 C8 p$ C* r! pOne more thing, O/ J& n, I7 n, x

* f% w! C- r- y" T& ~
虽然AlphaStar战绩斐然,但有些人它还打不赢。

  L" T: C+ t% A7 ?
当时
AlphaStar
刚进天梯的时候,人类大魔王Serral就公开嘲讽,它就是来搞笑的。

! n# E0 O6 k$ L; i& P# `' C: X7 V& w8 |

3 A: Z; d+ k6 z! A+ u
但人家的确有实力,现在依旧能正面刚AI。
6 F4 F! P; p; ~% s7 u
不过,敢这样说话的高手,全球就只有一个。
4 m4 z! u5 q* H" j5 W# U& A
传送门
7 |+ B: b! M+ e: |" P5 D* e0 L, P8 s3 D7 C; ]# c( @' ~; ?7 h% P
Nature论文:
+ X4 G# X1 q+ m: d. |: R4 ohttps://doi.org/10.1038/s41586-019-1724-z
) |+ H- A  {( k7 q3 \
论文预印版:1 _3 F! z% T. K, S% G
https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

) S; N3 t- o7 r) }
博客文章:
. m+ v, _8 l; T2 D9 A! Z
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

2 c/ l6 y) b1 M. L$ ~
对战录像:5 H% J% u4 T: C( n6 V! X; Q
https://deepmind.com/research/open-source/alphastar-resources

+ f7 }. I5 L+ h3 |, Z2 G/ s. a$ S1 \# a5 z/ g
大咖齐聚!量子位MEET大会报名开启$ Q4 K9 }0 W1 j. {& f3 L) W
量子位 MEET 2020 智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业峰会!VIP票即将售罄,快扫码报名吧~
- L, K6 q* U4 W5 }榜单征集!三大奖项,锁定AI Top玩家& ]8 Q2 M- I2 A4 V% g! x* V: k
2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!
$ c+ e2 `+ A- b量子位 QbitAI · 头条号签约作者/ y/ X" U) @9 X! x8 r6 Q
վ'ᴗ' ի 追踪AI技术和产品新动态
+ t6 ?8 L/ ^7 @" y5 _: Y# ~( t喜欢就点「在看」吧 !
+ I. Z& d- S9 U$ G* F0 u9 }1 r
2 v* q$ ?$ ~6 {, i' D/ p* H0 l1 E2 @: _( t8 \$ r) d- R

+ `3 X# V$ B& u# ]2 \) v6 ^0 @
* j8 [5 F, a) V/ [- W4 [5 o- `( |9 [! @1 o0 `) {& P! Q
来源:http://mp.weixin.qq.com/s?src=11&timestamp=1572508805&ver=1945&signature=ufDgJF-ttdwWgSRz4GvsbfZFt8aLHUpcC9yHtzomlOL0gOuaJsxc735aQnmgAG4n173vkU87wL1VAWURHlPQMQpVqYLRqYVHonQrB2VYxo0tKwIa7RrwLt4ddob2CbZI&new=1/ g: Z0 B! `+ k. |8 w
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-4-20 03:37 , Processed in 0.040916 second(s), 26 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表