楼主:
aaaba (小强)
2016-03-12 16:37:59跟樊麾下的阿发狗是吃KGS的棋谱长大的
后来跟小李下的时候,大概是吃了职棋的正式对局谱,又变得更猛
前两阶段可以说是以人的心血喂养长大的,还有点血脉相承的亲切感
但刚刚听柯洁那台的棋评提到
接下来会把人的影子都清洗淡化,
也就是纯粹的用阿发狗自己对局的棋谱来重学下棋
这种完完全全丢掉初始资料的学习方式个人是第一次听闻
(相较于后续只是接着 fine-tuning 的作法)
有够变态!
不知道有没有人可以找到资料来源?
作者:
BRANFORD (请保佑我的父亲)
2016-03-12 16:40:00他自己的棋谱已经是前无古人的境界了 还吃别人的干嘛?
作者:
hdjj (hdjj)
2016-03-12 16:42:00有新闻说AI会自己对下,所以成长的速度比我们想像还要更快
作者:
a741085 (向前一镖)
2016-03-12 16:43:00阿就散功的概念阿
今天的赛前访问 deepmind 成员自己说的有提早半小时看官方直播的人应该都会听到
我就想不通为什么要用原始的SL策略网络和rollout policy
因为阿发狗的棋力目前已经远高于人类,这代表官方认为
提问XD,那噪声是希望"不多不少"吗?(希望我没有误解paper...)
作者:
micotosai (日本语が半人前の俺様)
2016-03-12 16:49:00他是乱马嘛?还无差别格斗流哩
可是paper里好像只有用人类棋谱来建立SL策略网络,尽管它其实可以重新用训练好的AlphaGo重建。当然这也可能是因为写paper时AlphaGo还不够强啦,不过他们的paper好像是说希望有某种被人类筛选过的噪声。It is worth noting that the SL policy network per-formed better in AlphaGo than the stronger RL policynetwork, presumably because humans select a diversebeam of promising moves, whereas RL optimizes forthe single best move.今天的赛前访问我听的感觉像是在阐述人工智能的前景和研发方向,不太记得是不是有特别指围棋@@嗯对我想错了其实不是同一件事XD,至少paper也没解释为
作者:
lwei781 (nap til morning?)
2016-03-12 17:35:00像无名散功重练 更上一层啊
什么不用‘AlphaGo棋谱建立的SL来重新建立RL value’至于MCTS本身不用RL policy就像你说是另一件事。那部分paper的说明倒是比较好想像XD
我也是觉得会有学习极限的事 我现在还是倾向于相信围棋上帝让两子 而阿发够可能就很像集合世上各大高手的优点或许中及型态可以让到柯洁这种当世第一让到分先终极
作者:
chieya (chieya)
2016-03-12 20:19:00感觉像洗血统,要洗到精纯
反过来说,说不订噪声都阿法狗自己洗的,人类:去洗噪声!成就:[学会洗噪声]