颠覆围棋后,人工智能又攻陷了德州扑克
文章来源:澎湃新闻
在太平洋这头的中国,谷歌旗下DeepMind研发的阿尔法狗(AlphaGo)刚刚披着“Master
”的马甲战胜了“当今围棋第一 人”柯洁,宣告着人工智能在围棋领域的胜出,在太平
洋那头的加拿大,人类在德州扑克领域也要失守了?来自加拿大和捷克的10位科学家近日
在预印本网站 arXiv上载了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》
的论文,介绍了一种能在一对一无限注德州扑克中击败人类玩家的新算法 DeepStack。
在过去的20年里,我们见证了许多游戏领域在人工智能面前纷纷“沦陷”,比如西洋双陆
棋、跳棋、国际象棋和围棋。 人工智能在这些领域发挥的难度,主要取决于这些游戏需
要作出的决策点(decision points)数量。一盘围棋游戏约包含有10的170次方个决策点
。
但是,围棋等棋类游戏是完美资讯游戏,也就是说,所有玩家在游戏中能获得的确定性资
讯是对称的。但除此之外,人类生活中还要面临更多非完美资讯的情景,正如电脑之父冯
·诺依曼所说,“现实世界与此不同,现实世界包含 有很多赌注、一些欺骗的战术,还
涉及你会思考别人会认为你将做什么。”
德州扑克就是这样一种包含了欺骗、推测的非完美资讯游戏,玩家只能掌握自己手上的牌
,通过这种非对称的资讯与对手进行博弈。
因此,虽然一对一无限注德扑游戏中包含10的160次方个决策点,要少于围棋,但它对人
工智慧的推理能力提出了更高的要求。
在过去,研究人员往往采用一种压缩型的策略来开发算法,即通过把原始版本游戏中的
设计和行为转移到一个被压缩了的情境下推理。但在压缩的过程中,资讯会出现丢失,造
成此前人工智能从未在扑克领域击败人类玩家。
而这个加拿大和捷克的合作团队开发的新算法DeepStack,则注重培养人工智能出牌
时的“直觉”。在运用深度学习,反复自我博弈之 后,DeepStack学会了在每一个具体情
境出现时进行推理。这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的
感觉,并作出相应的决策。
该团队邀请了来自17个国家的33名专业扑克选手挑战DeepStack,在2016年11月7日到12
月12日之间共进行了44852次较量。 DeepStack成为了首个在一对一无限注德扑中战胜人
类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blinds per game,一般
职业玩家认为50mbb/g是个门槛)。
https://goo.gl/CMVeFS
心得:比起下棋复杂的计算,扑克牌这些似乎更为容易以电脑程式来衡量
但扑克打牌充满著不确定性,电脑要如何在有限的资讯下能够战胜人类
也是挺引人好奇的
不过事实证明,AI玩扑克还是超强(不是电脑游戏那种可能会作弊的)
以后还有什么益智项目,是AI有机会战胜职业玩家的呢?