|
|
看点:AI对决世界冠军再获胜利,在6人无限制德州扑克比赛中取得里程碑突破。/ f2 P9 T% i v/ E
% |, a7 K3 f c R& s1 {
' [+ G4 A/ y: H! u2 o# A: q* z导语:Facebook AI和卡耐基梅隆大学的研究人员研发出了新人工智能系统,成功打败德州扑克世界冠军在内的15名职业选手,为人工智能与人类竞赛领域再次带来新突破。# h( @) o' b" }3 Y& [( L$ ? U
智东西7月12日消息,昨日,Facebook AI和美国卡耐基梅隆大学(Carnegie Mellon University)的研究人员在《科学》杂志上发表了一篇论文,他们研发出了一款名叫Pluribus的扑克人工智能机器人。/ w6 H; B! T6 N' }4 ?
该机器人在6人无限制德州扑克比赛中击败了15名职业选手,其中包括2000年世界扑克锦标赛冠军克里斯“耶稣”弗格森和4次世界扑克巡回赛冠军达伦埃利亚斯。* k/ D8 I1 B# P& c* W( t9 d, G4 b1 r
Facebook声称,Pluribus是第一个在基准游戏中持续击败2个人类玩家以上的人工智能。% o1 e2 f4 Q; W, V7 x1 U5 i0 n
Pluribus由Facebook AI和卡内基梅隆大学计算机科学系,以及战略机器(Strategic Machine)、战略机器人(Strategy Robot)和优化市场(Optimized Markets)等公司共同合作研发。
5 P# R' g E4 E" ]$ q- ]5 L. }研究人员在《科学》杂志中对如何创建Pluribus进行了详细介绍。
; \( w5 ~, U6 f, J8 h: i1 o( u3 _ 8 V, Q1 N" r$ C0 ^5 M
$ a) `0 a8 z! S1 w0 Y# p$ x7 D: g8 b. l4 r* f
对于这项研究的意义,研究人员在论文的最后总结道:- c% r" g& P U# n, A' H7 ]$ G7 M
自我博弈(self-play)与搜索形式相结合,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。然而,大多数现实世界的战略互动涉及隐藏信息以及两个以上的参与者。这使得理论和实践存在很大的差异性,而且明显更加困难。# `: H+ m/ X" I% K. \
为多人德州扑克开发超能AI不仅是AI领域的重要进展,也是计算机扑克领域的里程碑。
; X6 M3 f" g' z9 u5 F0 x8 N8 kPluribus的成功表明,尽管理论上没法保证AI在多人游戏中的表现,通过精巧的算法依然有望设计和训练出超越人类的AI。( m8 |& M( g) f$ U( [
& k& `% m( X4 ~6 m) L: V% ~8 t
Pluribus击败德州扑克世界冠军5 T! z/ F7 X* T- J
4 v% |5 Y' U1 B8 P7 G$ w6 s- S
- v4 F/ j) [6 O v; a5 B5 T" c$ u+ i
扑克一直被研究人员们认为是人工智能领域的重大挑战,它可以用来衡量AI在博弈论方面的表现。
6 w; r, a1 \0 j7 `事实上,在扑克游戏中包含了许多隐藏信息,这意味着人工智能在不知道对手的牌的情况下,需要靠“虚张声势”的表现或其他策略诱惑对手,才有可能获得成功。! K' H. h' `2 N' ?6 `2 i
然而,这些战术并不适用于其他游戏,这使得扑克能够很好地与人工智能技术相抗衡。
1 F4 Y- }( T5 \. T由Facebook AI研究科学家Noam Brown和卡耐基梅隆大学的Tuomas Sandholm教授共同研发的Pluribus机器人就是人工智能在扑克游戏领域的一大突破。
8 n0 v2 e: s& I/ y/ s% {在12天的测试比赛中,研究人员让Pluribus分别在两种不同的环境中人类选手进行游戏对决。一种为5位人类选手与1个Pluribus相对决,另一种为5个Pluribus与1位人类选手相对决。
! X4 H1 \/ o# w其中,它的对手包括2000年世界扑克锦标赛冠军“耶稣”克里斯·弗格森(Chris Ferguson),以及4次世界扑克巡回赛冠军达伦·埃利亚斯(Darren Elias)。! O6 E$ K( E2 }- g! t
针对这场测试比赛,Facebook AI的研究人员表示,如果每个筹码价值1美元,那么Pluribus每把手牌大约可赚5美元,每小时可以赢得大约1000美元的奖金。
0 f3 M: I* d- e& E2 iPluribus在游戏中考虑的投注数量主要在1到14之间变化,确切投注还需要看实际情况而变化。尽管它可以在100到10,000美元之间进行投注,但实际上玩德州扑克时,对手并不局限于那些少数选项。8 ?$ [" ~+ c X) q

* u4 s& F; d, m+ ~- t; O: x# |4 F0 }) {. x0 w
通过自我游戏从零训练
& i ~6 g. W! W8 w0 g1 b3 R; n
+ q% u/ l8 M3 z* K' W6 {! S2 w0 I4 {: v0 ^- L, ^4 B$ X7 X
就像以往人工智能被训练玩像象棋、Dota II和星际争霸II等游戏一样,Pluribus也能进行自我游戏训练。
# p9 Y, q B, |自我游戏中,Pluribus在没有任何人工或先前人工智能游戏数据输入的情况下,与自己的副本进行对抗来掌握德州扑克的规则,以及计算战术数据。' Q! p& J8 t" `4 H
但是,这种“自我游戏”的学习方法意味着Pluribus无法从人类那里获得任何游戏数据,也无法观察到其他人工智能系统的游戏策略。
$ D2 M/ W: q l7 T: b3 Z# V! B研究人员在论文中表示,Pluribus从零开始随机运行,并逐渐改进,它需要决定将做出哪些动作和这些动作的概率分布,以产生比它早期版本策略更好的结果。3 Z9 K- E* Q2 w* B2 D' S
训练方面,Pluribus能够在20个小时的德州扑克训练中,达到超越人类的水平,并击败人类玩家,但是在多人游戏方面的问题依旧难以破解。/ f3 Y: b- L8 v$ }6 t* O
研究人员表示,这些创新具有超越扑克的重要意义,因为双人的零和博弈(一项游戏中,博弈各方有输有赢,但收益和损失相加总和永远为零)在娱乐游戏中很常见,但在现实生活中却非常罕见。主要是现实世界的场景通常涉及多个参与者,例如在线拍卖中的竞价或者交通导航。
) ]( H- l, R1 T4 G1 W: [8 r' B$ x; l
云计算资源仅需约1030.46人民币; V* _2 q m, Q- @$ r$ p
( B8 x& V! r5 L, }; J4 R
3 D& k* K# U" g8 F
Pluribus的系统是在一个名为Libratus人工智能机器人的基础上创建的,是Libratus的增强版本。
/ L- t" m" n. S( Z, G( z# O$ zLibratus是卡内基梅隆大学在2017年开发的AI扑克机器人,它在2017年成功打败了4名顶尖的德州扑克职业选手。! `8 m% f1 n& \
在对战策略方面,Libratus主要采用了一种名叫纳什均衡(Nash equilibrium)的对战策略,在博弈过程中,只要其他玩家不改变策略,单一玩家就无法通过变换策略获益。
, D3 \6 T3 p: b与Libratus不同的是,Pluribus包含了一个新的在线搜索算法,可以通过搜索前面的几个游戏步骤,来评估自己下一步战术的选项。同时,Pluribus还拥有比Libratus更快的自玩算法。
# R/ a; I- F& M4 G. w7 ^8 M, G在线搜索算法和自玩算法的更新与结合,使得Pluribus能用比Libratus更少的处理能力和内存来进行训练。
- R0 n6 X" T. q* S% l! p+ A研究人员表示,这种效率与其他近期的AI里程碑项目形成了鲜明对比,后者需要相当于数百万美元的云计算资源来进行训练,而Pluribus只需要价值150美元(约1030.46人民币)的云计算资源。; f: R* j/ r2 f& L; T) `' B* l, K
此外,Pluribus也利用动作抽象和信息抽象来推断游戏中未来几轮的下注情况,以及批量计算相似的牌。
% q7 `! S: [0 a它还使用CFR ( Counterfactual regret minimization)算法,这是一种能使用自我博弈来进行循环推理的游戏算法,能够不断自我博弈来进行自我改进。: Z" t2 i( g, \; Q' J! q" x

% ^5 E X: g) y7 ~▲记者Cade Metz(左)和Facebook首席人工智能科学家Yann LeCun(右)
5 s3 c4 u! Z/ Z$ _3 N+ b! R; Q, Y( W( P5 |1 ]3 N& ?
Pluribus将不会开源
- N B/ M9 Z& M$ T" [# Z
6 B" E1 u! Y3 T0 l; `1 e8 I, T, B5 `' A
2000年世界扑克锦标赛冠军弗格森表示,Pluribus是一个很难对付的对手,它非常擅长在一手烂牌中下薄弱的赌注并从对手的好牌中榨取价值。
- l' D5 B4 ^0 B! h已获得了4次世界扑克巡回赛冠军达伦·埃利亚斯也表示,Pluribus的主要优势是它拥有混合策略的能力,这也是人类玩家在尝试努力达到的水平。9 l! z" x& R) W4 O) }* d- }
他还认为,对人类来说,混合策略是一个完全随机的操作,大多数人在一场游戏中无法从始至终地坚持执行。% Z) S8 {3 i2 L' b1 X. I u) Z8 U+ [
虽然Pluribus可能会让那些世界级在线锦标赛的职业扑克选手感到震惊,但他们并不需要担心会在以后的比赛中遇到Pluribus。
q9 \+ T! L+ rFacebook发言人Ari Entin表示,他们不会开源Pluribus,其中一个原因是,扑克竞赛本来就是商业性的,他们认为将其开源可能会造成负面影响。/ A5 A( T V+ Z5 c
几十年来,人工智能研究人员一直将游戏作为他们的AI代理测试平台。2 @6 _! u. _ q) {+ ?( d$ I& }
近年来,由于计算技术的进步,以及数据集和人工智能技术愈加进步和复杂,人工智能在游戏平台的测试已经有了许多突破。科技巨头们也正在大力投资游戏领域,希望人工智能在该领域的突破能带动医疗、科学和能源等其他领域的突破。
8 `5 o/ O5 z/ _ f9 v
: {- L7 V( V5 D, u3 S, H9 t结语:人工智能与人类竞赛新突破, \* |& A: T) k: y% |
1 r0 T, S7 l& n6 O# s+ c* [# |( N8 h- E1 T
自谷歌AlphaGo在围棋领域打败包括柯洁、李世石等世界围棋冠军后,给围棋界带来了巨大震动,人工智能与人类竞赛也一直是人们关注和讨论的话题。' } }* f5 q# v, e% k$ D$ j9 Y
过去,人工智能通过自我博弈(self-play)与搜索形式相结合,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。' Z+ J! c' J9 \: i$ y6 G0 _. Q
如今,Facebook AI和卡耐基梅隆大学的研究人员开发的这款多人扑克人工智能,既是这一领域公认的里程碑,也是电脑扑克领域的重要里程碑。$ u: M2 b4 p+ L$ c9 s. |; y4 i
Pluribus与人类职业选手对决的胜利表明,尽管它在对多人游戏种缺乏已知的强有力的理论保证,但在大规模复杂的多人且不完全信息的游戏环境中,它拥有的自我搜索游戏算法仍然可以产生超越人类的策略。
; z3 e2 z+ f/ M文章来源:Forbes、VentureBeat0 a) q" i0 ?4 v' h' k* P
本账号系网易新闻·网易号“各有态度”签约帐号
& g9 X% W! F$ b/ N7 b- r1 Z- `智东西公开课预告
) m& Q2 f* f4 m4 k* D: U- R7月17日起,AI推理公开课NVIDIA专场重磅开讲!从理论到代码,两节课带你掌握AI推理优化方法。扫码免费报名听课。
+ q0 p5 t3 u3 x6 d2 @+ }* A" z7 |3 x, \) o3 {0 l
1 O/ \5 y0 d. f3 M8 u/ `9 G
2 D8 T3 V1 z" @, g; Z' l1 H' _
, j, ~6 s. f4 Z5 W0 }" U
5 u( Z3 ^) _. J2 |1 m, ?来源:http://mp.weixin.qq.com/s?src=11×tamp=1562922005&ver=1723&signature=5KHB3ArHboE6SS7JLiqLmpmOwZtQ0oKTnXXh4Af43Dz8MU8bJp5uBhdhIXva6z12T-CQVsWcH5ENpJU9oSwqdngWSr0eFBhJKXfpMlrZT7GGgKaCYAkD5Btar1*F1TeN&new=11 n6 {% u! X1 r7 K
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|