[闲聊] AlphaGO棋风定型的可能性 Likedodo PTT批踢踢实业坊

[闲聊] AlphaGO棋风定型的可能性

楼主: Likedodo (小熊得冠军) 2016-03-12 23:38:54

以AlphaGo训练的方式来说
他是以RL(reinforcement learning)
的方式去训练结构的参数
就我的理解每次下完一盘(步)棋都会
依照不同的结果给的奖励值去调整参数
因此alphaGo会不会在这三场棋后
变成更能适应小李的下棋模式甚至是
专门对付他的棋风(local minimum)而不是下出全局最佳解呢？
感觉小李或越战越辛苦改变既有的下棋方式会不会赢呢？

作者: BRANFORD (请保佑我的父亲) 2016-03-12 23:39:00

他前两盘变啦没用这盘变回来更惨

作者: touyaman (とーやまん) 2016-03-12 23:40:00

她跟小李下三盘跟自己下几百万盘你觉得这三盘有影响吗

作者: bxxl (bool) 2016-03-12 23:41:00

他现在不一定在training phase, 可能不会改参数

作者: Cocochia (我是闪电经济学家) 2016-03-12 23:42:00

据了解不会，他只会不断变强

作者: NaoGaTsu (那欧卡兹) 2016-03-12 23:44:00

没可能，因为三盘的量实在太少，他每天至少能自我对局一百万盘，请算算看3/1,000,000会造成多大影响。

作者: owlonoak (深邃光辉) 2016-03-12 23:44:00

理论上它应该不会针对对手进行算法的调整

作者: zelkova (*〞︶〝*) 2016-03-12 23:45:00

说不定吧单机版都赢得了分布式版代表不是没有机会

作者: moonlind (又多了敷脸卡跟觅食卡了~) 2016-03-12 23:45:00

不会这三盘跟插花一样他每天自我对战一百万局耶

作者: arnold3 (no) 2016-03-12 23:45:00

微乎其微更何况没输代表原本的知识已经够用了大概就每天下一百万局中其中对手弱弱的一局

作者: moonlind (又多了敷脸卡跟觅食卡了~) 2016-03-12 23:46:00

但是如果输入棋谱的阿法购VS自练起家的阿法购打千万盘

作者: touyaman (とーやまん) 2016-03-12 23:46:00

说实在的 AI现在根本不知道跟他对下的是谁等到有一天

作者: Cocochia (我是闪电经济学家) 2016-03-12 23:46:00

你下输他，应该不会列入参考吧！我想

作者: moonlind (又多了敷脸卡跟觅食卡了~) 2016-03-12 23:47:00

当他有一个性质迥异的对手陪他打个千万盘可能出棋枫

作者: touyaman (とーやまん) 2016-03-12 23:47:00

AI知道对面是谁那才恐怖

作者: moonlind (又多了敷脸卡跟觅食卡了~) 2016-03-12 23:49:00

有天AlphaGO刻意走出第一局对战棋型仿佛在问:是你吗?天啊想到就毛毛的

作者: NDSLite (Matrix in 卧虎藏龙) 2016-03-13 00:11:00

自我training跟实战调整的参数应该会不一样吧

作者: birdy590 (Birdy) 2016-03-13 00:13:00

正常的话实战中根本不会 training, 回去再手动做较好我记得 Aja 好像有提到这次用的网络参数和去年底一样所以这三场以来一面战斗一面学习只是个幻想而已

作者: aegis43210 (宇宙) 2016-03-13 01:00:00

所以alphaGO只自我对弈到去年底而已？

作者: birdy590 (Birdy) 2016-03-13 01:04:00

训练的结果只是一堆数字, 可以任意抽换不同版本

作者: mrmowmow (mow) 2016-03-13 01:05:00

这三盘他屌赢两盘(应该吧) 你觉得他值得为这种内容改变下法吗？

作者: birdy590 (Birdy) 2016-03-13 01:05:00

我想要换成纯 AlphaGo 对奕棋谱重新训练也有研究意味在训练完可以拿两种版本互相对奕看看棋力是不是真有增强

作者: moonlind (又多了敷脸卡跟觅食卡了~) 2016-03-13 01:06:00

拜托请再造一台纯AlphaGO 不要删目前这台的档啊QAQ

作者: aegis43210 (宇宙) 2016-03-13 01:07:00

所以google还没拿出最近的参数出来…，太扯了

作者: goldduck (哥达鸭) 2016-03-13 01:10:00

其实是整个棋盘掌握力狗狗力胜全职棋当你发现狗狗走出大损还乐胜代表实力差距之大

作者: cute64627732 (香吉士) 2016-03-13 01:18:00

AG:连续好几天几百万盘,却来5盘慢棋且好弱的对手?

作者: darkseer 2016-03-13 03:28:00

birdy590请问有印象Aja哪里提到吗，意思是其实这次的跟1月底的paper差不多呀..

作者: s9209122222 (海海海) 2016-03-13 06:37:00

期待纯 AlphaGo 打破过去大家认为有用的定石

作者: darkseer 2016-03-13 10:00:00

下面rgx网友的文章里陈经是说这次的AlphaGo强非常多，(跟去年底的比起来)从ELO看起来也是如此，作者(之一)Silver也是表示到赛前某段时间(?)有持续自我训练

继续阅读

[新闻] 华学明：脱帽致敬李世石连线下难赢阿尔法zkow [讨论] 人类群战AlphaGO与历史bjiyxo [情报] 柯洁向AlphaGo提出挑战了！vb0824 [新闻] 李世石称错估阿尔法实力背负太大压力才输zkow [新闻] 对话5位日本九段:中国应该有人能赢Alphagozkow [讨论] 李世石 VS AlphaGo 第三局看法wukevinboy [心得] AlphaGo 的启示colorless [问题] 如果ALPHA GO下完五盘不流通市面的话MaYingJoe [问题] 阿法对阿法的谱Vonix [历史] 李世石(黑) - AlphaGo(白) 第三局棋谱zelkova