※ 引述《Likedodo (小熊得冠军)》之铭言:
: 以AlphaGo训练的方式来说
: 他是以RL(reinforcement learning)
: 的方式去训练结构的参数
: 就我的理解 每次下完一盘(步)棋都会
: 依照不同的结果给的奖励值 去调整参数
: 因此alphaGo会不会在这三场棋后
: 变成更能适应小李的下棋模式 甚至是
: 专门对付他的棋风(local minimum)而不是下出全局最佳解呢?
不太可能
Policy Network 跟 Value Network 都是千万盘等级练出来的.
加个几盘影响微乎其微.
而且, 会赢的棋步才对权重比较有影响力.
人类下赢 AlphaGo 时, AlphaGo 才会衍生出新招去克制.
AlphaGo 是全能型的见招拆招, 无招胜有招, 谁对上它都会感觉自己的棋风被克.
棋风被克下不顺就很难下出平常的水准.
: 感觉小李或越战越辛苦 改变既有的下棋方式会不会赢呢?
AlphaGo 目前还是由高手的棋路演化而来.
要导向 AlphaGo 不熟悉的领域, 用一些冷僻开局或许比较有机会赢
https://www.zhihu.com/question/30970383
不过冷僻开局人类同样不熟, 就看谁技高一筹.