Re: [讨论] AlphoGo什么时候在长考?

楼主: mathbug (天堂的定义)   2016-03-11 08:52:07
※ 引述《mathbug (天堂的定义)》之铭言:
: 我觉得这是一个很有趣的问题
: AlphaGo 什么时候长考? 就是什么时候要花很多时间计算?
: 理论上,当人类对手在思考下一手的时间
: AlphaGo 也可以用自己的逻辑(value function)〝帮〞对方选出最佳的几个点
: 然后同时思考自己的对策
: 一旦人类对手的落点不在自己选出最佳的几个点时,一切又要重新计算了
: 换言之,当AlphaGo长考的时候,表示人类对手的选点不同于自己的逻辑
: (非电脑判断分数最高的几个点)
: 也许好好在重播中 观察AlphaGo的长考时间点 可以多了解它不同的逻辑
第一盘 AlphaGo 好几手花很多时间在思考
导致AlphaGo用时也非常可观(第二盘AlphaGo用时少很多了)
显然李也给AlphaGo出了难题
甚至于行至中盘 右下角白棋没做活之前 很多高手仍然认为黑棋占优
第三盘的最佳策略应该如下:
1. 相同开局,AlphaGo 应该会相同应对 直到李世石自己认为的问题手
2. 真心认为人类要(好好看重播) 知道怎么下才会让AlphaGo重新花时间计算思考
唯有这样 才能让AlphaGo有前后策略不连贯的机会
3. 前半盘没优势(战略阶段) 后半盘应该没机会(战术阶段 电脑计算大胜人类)
作者: agreerga (鸭毛)   2016-03-11 09:03:00
如果下一模一样的步法 AG会同样策略吗?
作者: sarraya (~ No Game No Life ~)   2016-03-11 09:03:00
相同开局未必相同应对,AG最少也会把第一局参入经验
作者: shyangs (厚呦)   2016-03-11 09:12:00
第一局的经验是必胜.
作者: fh48105 (网络真慢)   2016-03-11 09:23:00
应该不会相同策略. AG的算法有加入乱数取点.
作者: newtonyd (newtonyd)   2016-03-11 09:40:00
一定有乱数取点 不然对电脑就会出现必胜法(BUG)
作者: SansWord (是妳)   2016-03-11 09:48:00
按照类神经网络的逻辑,这两场完参数应该又不同了如果这几天 AlphaGO 都仍旧不断自我练习的话,两天后不会是一模一样的应对....它还在不断成长阿!
作者: agreerga (鸭毛)   2016-03-11 10:07:00
那如果可以无限反悔 有办法Try出一条赢AG的局吗
作者: nangle (帅胖汪汪)   2016-03-11 10:36:00
就穷举法啊楼上
作者: aegis43210 (宇宙)   2016-03-11 12:26:00
无限反悔的话,一盘棋要下几天?
作者: agreerga (鸭毛)   2016-03-11 13:40:00
下小棋盘来观察AG的步法?
作者: Danielly (苹果虫)   2016-03-12 00:09:00
小棋盘每个点跑出来的权重也会不一样啊

Links booklink

Contact Us: admin [ a t ] ucptt.com