Re: [闲聊] AlphaGO棋风定型的可能性

楼主: jackeikuo (逸容)   2016-03-13 09:41:28
※ 引述《Likedodo (小熊得冠军)》之铭言:
: 以AlphaGo训练的方式来说
: 他是以RL(reinforcement learning)
: 的方式去训练结构的参数
: 就我的理解 每次下完一盘(步)棋都会
: 依照不同的结果给的奖励值 去调整参数
: 因此alphaGo会不会在这三场棋后
: 变成更能适应小李的下棋模式 甚至是
: 专门对付他的棋风(local minimum)而不是下出全局最佳解呢?
不太可能
Policy Network 跟 Value Network 都是千万盘等级练出来的.
加个几盘影响微乎其微.
而且, 会赢的棋步才对权重比较有影响力.
人类下赢 AlphaGo 时, AlphaGo 才会衍生出新招去克制.
AlphaGo 是全能型的见招拆招, 无招胜有招, 谁对上它都会感觉自己的棋风被克.
棋风被克下不顺就很难下出平常的水准.
: 感觉小李或越战越辛苦 改变既有的下棋方式会不会赢呢?
AlphaGo 目前还是由高手的棋路演化而来.
要导向 AlphaGo 不熟悉的领域, 用一些冷僻开局或许比较有机会赢
https://www.zhihu.com/question/30970383
不过冷僻开局人类同样不熟, 就看谁技高一筹.
作者: unknow12 (LockOn)   2016-03-13 09:44:00
没错机器学习的结果由训练资料决定
作者: wadashi1 (阿拉丁)   2016-03-13 09:49:00
这几天李40有很多怪招应对,但结果明显被评为臭招了..
作者: bxxl (bool)   2016-03-13 09:52:00
人类的怪招未必是alphago的怪招(他看的局数太多了)
作者: aegis43210 (宇宙)   2016-03-13 09:53:00
除非有新的棋手能走出新定石
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-13 10:04:00
李用怪招测了被骂臭头 看得懂门道的还叫李用人类研究透彻的走法徐图胜利 不过两种都碰壁了
作者: ykes60513 (いちご)   2016-03-13 10:14:00
冷僻开局第一盘小李不就用过了
作者: a2156700 (斯坦福桥)   2016-03-13 10:15:00
要又冷又强吗w
作者: yamiyodare (shantotto)   2016-03-13 10:26:00
没有风车流那么冷

Links booklink

Contact Us: admin [ a t ] ucptt.com