楼主:
Likedodo (小熊得冠军)
2016-03-12 23:38:54以AlphaGo训练的方式来说
他是以RL(reinforcement learning)
的方式去训练结构的参数
就我的理解 每次下完一盘(步)棋都会
依照不同的结果给的奖励值 去调整参数
因此alphaGo会不会在这三场棋后
变成更能适应小李的下棋模式 甚至是
专门对付他的棋风(local minimum)而不是下出全局最佳解呢?
感觉小李或越战越辛苦 改变既有的下棋方式会不会赢呢?
作者:
BRANFORD (请保佑我的父亲)
2016-03-12 23:39:00他前两盘变啦 没用 这盘变回来 更惨
作者:
touyaman (とーやまん)
2016-03-12 23:40:00她跟小李下三盘 跟自己下几百万盘你觉得这三盘有影响吗
作者:
bxxl (bool)
2016-03-12 23:41:00他现在不一定在training phase, 可能不会改参数
作者:
Cocochia (我是闪电经济学家)
2016-03-12 23:42:00据了解不会,他只会不断变强
没可能,因为三盘的量实在太少,他每天至少能自我对局一百万盘,请算算看3/1,000,000会造成多大影响。
作者:
zelkova (*〞︶〝*)
2016-03-12 23:45:00说不定吧 单机版都赢得了分布式版 代表不是没有机会
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-12 23:45:00不会 这三盘跟插花一样 他每天自我对战一百万局耶
作者:
arnold3 (no)
2016-03-12 23:45:00微乎其微更何况没输代表原本的知识已经够用了大概就每天下一百万局中其中对手弱弱的一局
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-12 23:46:00但是如果 输入棋谱的阿法购VS自练起家的阿法购 打千万盘
作者:
touyaman (とーやまん)
2016-03-12 23:46:00说实在的 AI现在根本不知道跟他对下的是谁 等到有一天
作者:
Cocochia (我是闪电经济学家)
2016-03-12 23:46:00你下输他,应该不会列入参考吧! 我想
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-12 23:47:00当他有一个性质迥异的对手 陪他打个千万盘 可能出棋枫
作者:
touyaman (とーやまん)
2016-03-12 23:47:00AI知道对面是谁那才恐怖
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-12 23:49:00有天AlphaGO刻意走出第一局对战棋型 仿佛在问:是你吗?天啊 想到就毛毛的
作者:
NDSLite (Matrix in 卧虎藏龙)
2016-03-13 00:11:00自我training跟实战调整的参数应该会不一样吧
作者:
birdy590 (Birdy)
2016-03-13 00:13:00正常的话 实战中根本不会 training, 回去再手动做较好我记得 Aja 好像有提到 这次用的网络参数和去年底一样所以这三场以来一面战斗一面学习只是个幻想而已
作者:
birdy590 (Birdy)
2016-03-13 01:04:00训练的结果只是一堆数字, 可以任意抽换不同版本
这三盘他屌赢两盘(应该吧) 你觉得他值得为这种内容改变下法吗?
作者:
birdy590 (Birdy)
2016-03-13 01:05:00我想要换成纯 AlphaGo 对奕棋谱重新训练 也有研究意味在训练完可以拿两种版本互相对奕 看看棋力是不是真有增强
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-13 01:06:00拜托请再造一台纯AlphaGO 不要删目前这台的档啊QAQ
其实是整个棋盘掌握力 狗狗力胜全职棋当你发现狗狗走出大损还乐胜 代表实力差距之大
AG:连续好几天几百万盘,却来5盘慢棋且好弱的对手?
birdy590请问有印象Aja哪里提到吗,意思是其实这次的跟1月底的paper差不多呀..
期待纯 AlphaGo 打破过去大家认为有用的定石
下面rgx网友的文章里陈经是说这次的AlphaGo强非常多,(跟去年底的比起来)从ELO看起来也是如此,作者(之一)Silver也是表示到赛前某段时间(?)有持续自我训练