※ 引述《tlchen (台湾加油)》之铭言:
: ※ 引述《qweewqq (风一样的男子)》之铭言:
: : DeepMind指出,他们不使用任何人类知识,AlphaGo Zero用上的是新的“强化学习”方法
: 对于 "不使用任何人类知识" 这句, 我心中始终有个大问号.
: 首先, 在一开始的 random play, AZ 根本不知何时要停.
: 必须人工设定去停它. 这用到了人类知道这样的游戏, 应该有限步要停.
: 虽然 AZ 的参数是经由自我对战学的, 但整个架构呢?
: 要有几层的的类神经网络? 每层有多少节点? 层跟层间的结构?
: covolution 要用 5x5 还是怎样的大小?
: 要怎样配合 VN, PN? 要用 MCTS 来寻找?
: 这些都没用到人类的围棋知识吗?
: 这整个大架构, 是在学人类棋谱时, 发现这样的架构, 可以训练出不错的 AI.
: 这架构不是随便设就行得通的吧?
: 经由人类棋谱训练, 找到一个好的大架构, 这样可以称作不使用人类知识?
: 如果今天一个完全不懂围棋的人, 只针对规则, 就去订了大模型架构,
: 然后经由自我对战去学参数. 这样的结果, 那叫做不使用任何人类围棋知识.
: 现在这样算吗? 我心中实在有很大的黑人问号.
1.
AGZ 怎会不知何时要停? 何必需要什么特别人工设定它? 跟第一盘或第几盘也没关系
给定围棋规则(禁自尽 禁同型)
即使你2个人类对下 到最后双方再无可着手的时候就是终局(你可以找个人试试)
这跟机器或人类无关
1. 原po 一直在搞混人类知识跟人类围棋知识
所谓人类围棋知识 是专指人类"在棋盘上"的着手 应法 思考 这叫围棋知识(不包括基本规则)
AGZ "就算有" 建立在之前 AlphaGo的基础上 比如说要用 几层类神经网络 MCTS 或其它
"人类工程上"的知识 但这些跟"人类围棋知识" 并不相同 基本上这个是工程问题 数学问题 主是跟棋盘大小
围棋规则 及围棋本质等相关的东西 而跟人类"棋盘上的着法"无关
基本上你搞混了 build time 跟 run time
AGZ的工程师懂或不懂围棋也不重要(他要懂基本规则) 他不需要是一张白纸
除非AGZ 的设计者有把 什么不属于基本规则的想法写入程式 如征子 定石 手顺等等
不然AGZ 本来就没用到"人类围棋知识"
就是只给定基本规则 所有的着法都可以 所有的着法都是自我对战发现改良的
它训练过程根本没看过人类下棋 没跟人对下
总之
人类工程上对围棋的知识(解法 算法 设计等) \= 人类围棋知识
写出一个GAME 不代表我在玩这个GAME时是天下无敌
在GAME里面无敌不表示我能写出这个GAME
一个是 build time 一个是 run time
这两个意义也不同 不要搞混
如果你今天要把人类只要跟围棋有关的东西都叫人类围棋知识了
把所有东西都定义进来 这就没什么好讲的
(至于你一直说AGZ大架构有没有用到人类的围棋知识,
如果AGZ 只针对围棋的基本规则去设计 优化 那就没有用到
如果AGZ 有针对盘面特定结构去设计 优化 那就是有)