https://arxiv.org/pdf/1712.01815.pdf
这次论文的标题是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
从零学棋,
使用相似的神经网络架构,
一样没有使用任何人类知识,
4小时打败西洋棋最强软件Stockfish,
2小时打败将棋最强软件Elmo,
34小时打败围棋AlphaGoZero 20blocks 3天版本,
(围棋其实有些争议,因为他这次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒传统的alpha beta search,
通用于完全讯息游戏,
又一伟大的突破。
作者:
staristic (ANSI lover)
2017-12-06 20:45:00一个通用于下棋的AI?
不知道限制多严格,有运气成分的(例如暗棋)或多人的(例如跳棋)不知道能否通用过去
作者:
birdy590 (Birdy)
2017-12-06 20:55:00力王:大家可以回家啦~
作者:
harrybbs (harrybbs)
2017-12-06 20:59:00逆天啦 发展这么快
作者:
dongy (孤星...)
2017-12-06 21:01:00暗棋可以计算机率的,但因复杂度不高,且有部分运气,所以人类棋手会有一定胜率
作者:
TWN2 (.....)
2017-12-06 21:04:00想看阿法零跟赤木茂打麻将
作者:
zeat (L.)
2017-12-06 21:06:00AlphaGO老师:我是说在座的各位都是__
作者: s891234 (嘟噜咑) 2017-12-06 21:41:00
真的是在座的各位都是哈哈,可以回家啦~~~
作者:
turing (涂妮)
2017-12-06 22:22:00这也终结了西洋棋的西西里防御。
作者:
hne (hne )
2017-12-06 22:52:00太强了 O o
作者:
asglay (收收收尾)
2017-12-07 00:11:00借转chess
AlphaZero:我不是说人类而已,我是说连其他程式也都是_
两个人的完全讯息游戏最复杂的应该就围棋,其他应该都不是问题了
这样的话 完全讯息游戏已经到尽头了说不定世上最后一块净土会是麻将 AI与人类打成平手
使用ZERO学习模式是不可能学会星海的,即使用map hack因为星海的规则和变化数远远超过围棋太多太多了
作者:
CGary (下雨天也挺浪漫的)
2017-12-07 01:12:00这件事大概可以把所有完全讯息的问题解了...
作者: HanaYukii (ShioRin) 2017-12-07 02:35:00
德州扑克比麻将难多了吧
作者:
david1124 (Master Jian)
2017-12-07 09:35:00我比较想看它打LOL,个种压血和反杀XD而且说不定它可以真正演算出最适合的对线角和友方英雄
非完全讯息难在抽卡机率计算和本身牌组的搭配,麻将、德州扑克其实比较好解决,星海要模拟人的地方很多,要图片辨视,很多非关策略的问题要解决,个人感觉其实难多了!
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2017-12-07 11:48:00才刚出一个AlphaGO zero 又再创一个打败他 我都麻痺了就像一开始看超级赛亚人打架好兴奋 现在整个眼神死
就如我之前所说的..先血洗其他棋类游戏的软件,没想到只花这么短的时间... (搞不好中国象棋也被KO,只是没说..)
作者:
harrybbs (harrybbs)
2017-12-07 12:15:00中国象棋也同样适用啊,可能是没花资源训练而已
老实说 连将棋和西洋棋这种有放回和翻转的都没问题了象棋根本只是小儿科吧
作者:
Tabrith (血糖瑪çªæœµ)
2017-12-07 13:49:00AlphaGo不要再玩游戏了啦,学写程式生一个AlphaGo二代w
作者:
toya123 (雷姆在我床上 闭嘴)
2017-12-07 17:48:00ALPHAGO : 我要扫荡各种竞技游戏!!
作者:
ddavid (谎言接线生)
2017-12-07 18:35:00@Tabrith 会有这个想法大概是不清楚难度跳了多少等级吧XD@fossil313 没记错的话将棋评估的复杂度是比中国象棋高的,将棋能搞定象棋基本上没啥问题。是说围棋都搞定了,本来其他棋类都是复杂度较低的啊XD基本上写程式跟下棋在问题类型上就已经有距离了,而且难度差距可是很大
作者:
zxshih (zxshih)
2017-12-07 18:43:00德州扑克不是早就被AI打败了吗
作者:
ddavid (谎言接线生)
2017-12-07 18:57:00虽然自写程式的研究是有,但其实没有完全真正从零开始,比较像设计架构的感觉。从零开始的话还会扯出额外理解问题跟解读结果的问题要解决,难度又比围棋跳升不少了
AlphaZero字面不就是从0开始,乱下由碰触让ai了解规则,再由人类修正bug,修练出强到不可思议的棋力!
作者:
harrybbs (harrybbs)
2017-12-07 19:21:00有人类修正bug吗?
Alpha go下一版本:Alpha skynet
楼上,这个版本没有go了,这版是AlphaZero了!
作者:
ilw4e (可以吃吗?)
2017-12-07 20:31:00扑克是有限注能达到顶尖,无限注印象中还没有能到颠峰的
作者:
Tabrith (血糖瑪çªæœµ)
2017-12-07 23:25:00@ddavid AlphaGo已经强到不像话了给他点挑战嘛XD
作者:
ilw4e (可以吃吗?)
2017-12-07 23:58:00那个不是跟顶尖高手打啊
作者:
ddavid (谎言接线生)
2017-12-08 00:17:00@Tabrith 强到不像话是指棋类而已,乱扯一个不同类问题有啥意义?XDF1赛车跟人赛跑也强得不像话啊,所以叫车去跟鸟比飞高吗XD@HeterCompute TH有世界最大赛事,称为World Series ofPoker,WSOP
https://goo.gl/PWktDF其中世界大赛中的主要赛事(Main Event)就是比no-limitTH而能比到Main Event的决赛桌大多都是一时之选了而世界上也有许多知名的顶尖Poker选手都在这项赛事有好成绩,例如Poker界的传奇之一Doyle Brunson曾在1976和1977连续两届WSOP Main Event靠垃圾手牌非同花10-2逆转获胜,传奇到自此10-2这手牌直接被用他的名字命名
作者:
Tabrith (血糖瑪çªæœµ)
2017-12-08 00:32:00yeah 的确不是叫alphago去学而是要alphago的AI系统学查了一下 google 已经在别的地方开始做了 (惊
作者:
ddavid (谎言接线生)
2017-12-08 00:35:00另外有个一般没接触TH有可能见过的知名高手是Johnny Chan,在麦特戴蒙主演的电影赌王之王(Rounders)中客串演出赌王的就是他,事实上也就是演出他自己另外在我有空且很迷TH的那阵子最喜欢的职业Poker玩家是Daniel Negreanu
作者: HanaYukii (ShioRin) 2017-12-08 00:42:00
扑克AI赢得只是限定100大盲的单挑 一般打的都是六人桌九人桌 筹码也是上下波动的AI能在主流比赛或现金局都还没攻克
作者:
ddavid (谎言接线生)
2017-12-08 00:48:00Poker AI如果攻克现金桌,基本上你就可以拿去玩线上TH做持续赚钱了,就好像如果你研发出预测股价的技术就拿去投入股市赚钱XD另外就是,TH的现金桌跟Tournament的打法也会有所不同,同一套训练出来的AI基本上应该是没法在这两种环境共用的如HanaYukii提到,桌上人数的不同也会影响打法顺带一提,上面提到WSOP Main Event的buy-in(参赛费用)是一个人一万美金
作者:
ilw4e (可以吃吗?)
2017-12-08 00:59:00Poker AI如果够强线上绝对看到一堆AI在打,毕竟是真钱在赌
作者: sivid (go back to sleep) 2017-12-08 02:04:00
顺便提一下,master其实没有跟zero平等较量过当时zero用的计算力比master拿到的强
去西洋棋论坛看了一下,能对Stockfish无败真是了不起的成就,每个棋谱都异常精彩
作者: HanaYukii (ShioRin) 2017-12-08 03:32:00
Libratus就仅限heads up单挑阿
作者:
ddavid (谎言接线生)
2017-12-08 18:08:00单挑比多人桌单纯非常多,说服力还不够有限注也比no-limit单纯更多。另外就是,现金桌的职业高手的强项是强在1.懂得分辨出其他的高手并且避开,找出鱼并坐在那一桌,2.判读其他人临场的情绪跟打法变化。大多是只打heads-up train不出来的东西AI要真的能打多个打多人桌而且决定入座或离桌,长期+EV会比较称得上攻克现金桌XD 至于tournament又是另一个课题。话说看文章里面写说是玩no-limit
https://goo.gl/AQukJd wiki也写是针对no-limit
所以现在alphazero策略上训练已经超凡入圣了,接下来要克服的就是非关策略上,理解、图片辨识,诸多拟人上的问题了
作者:
ddavid (谎言接线生)
2017-12-08 18:28:00就算要说超凡入圣也只是针对容易模拟并评估结果的双人对抗资讯公开类别的问题就是了,跳问题种类要研究的事情还多呢
围棋那边的确有争议,要不alphazero至少要挑战40天版本40 block的alphago Zero,毕竟用了5000个TPU..不好意思!我就是抱着狗咬狗看好戏的心态,看有没有机会elo破6000,或让李世石版本4子还完胜之类的!