Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程

楼主: oldTim (TIME WILL TELL)   2017-11-09 14:31:45
※ 引述《tlchen (台湾加油)》之铭言:
: ※ 引述《qweewqq (风一样的男子)》之铭言:
: : DeepMind指出,他们不使用任何人类知识,AlphaGo Zero用上的是新的“强化学习”方法
: 对于 "不使用任何人类知识" 这句, 我心中始终有个大问号.
: 首先, 在一开始的 random play, AZ 根本不知何时要停.
: 必须人工设定去停它. 这用到了人类知道这样的游戏, 应该有限步要停.
: 虽然 AZ 的参数是经由自我对战学的, 但整个架构呢?
: 要有几层的的类神经网络? 每层有多少节点? 层跟层间的结构?
: covolution 要用 5x5 还是怎样的大小?
: 要怎样配合 VN, PN? 要用 MCTS 来寻找?
: 这些都没用到人类的围棋知识吗?
: 这整个大架构, 是在学人类棋谱时, 发现这样的架构, 可以训练出不错的 AI.
: 这架构不是随便设就行得通的吧?
: 经由人类棋谱训练, 找到一个好的大架构, 这样可以称作不使用人类知识?
: 如果今天一个完全不懂围棋的人, 只针对规则, 就去订了大模型架构,
: 然后经由自我对战去学参数. 这样的结果, 那叫做不使用任何人类围棋知识.
: 现在这样算吗? 我心中实在有很大的黑人问号.
Deepmind发言里所指涉的"知识",在AI的发展的脉络中有特殊意义
并非广义上我们理解的知识
===
https://technews.tw/2017/08/07/the-3rd-revolution-wave-of-ai-technology/
第一波人工智能大约是在 1990 年代前电脑的计算与储存能力还有限的时候,人工智能多
是以“专家系统”的方式实现。也就是人类将一些专家才懂的知识(如医学、法律)变成
一条条“规则”(如吃多喝多尿多可能是糖尿病)并输入电脑,电脑就可以借由这些规则
判断。
第二波人工智能主要是以机器学习运用在巨量资料探勘为本,以大量的资料配合统计及计
算科学的方法让电脑能从事决策。
===
所谓专家才懂的知识,在围棋中就是棋理,比如说气、手顺、遇劫先提、手割分析法..等
AlphaGO一开始输入的是人类棋谱选点Data,并没有根据棋理来写规则并输入进程式中
你若要找参考人类棋理的AI当然也有,根据我之前转录的加藤先生访谈,Zen这类老牌
围棋软件还保留了一些AlphaGO出现前专家系统的架构,但很显然与这一波电脑围棋进展
无关。
作者: tlchen (台湾加油)   2017-11-09 16:21:00
照这样讲,输入棋谱也算是没用到人类知识但这边是因为它在模型参数的训练没用到人类棋谱,才说没用人类知识.而我要说的是,模型的大架构,还是偷偷用到了
作者: Uizmp (黑袍法师)   2017-11-09 16:54:00
围棋知识 谢谢
作者: tlchen (台湾加油)   2017-11-09 18:37:00
你现在的围棋知识,棋谱到底算不算?不算的话,先前版本也没用到围棋知识
作者: Uizmp (黑袍法师)   2017-11-09 18:38:00
棋谱已经含有每盘的手顺和胜败, 如何不算?
作者: ddavid (谎言接线生)   2017-11-09 18:38:00
棋谱算是人类知识啊不然打前人的谱学习在学什么?
作者: tlchen (台湾加油)   2017-11-09 18:39:00
算的话,先前alphago的架构,alphago zero 是延用的.只是参
作者: Uizmp (黑袍法师)   2017-11-09 18:40:00
并没有沿用
作者: tlchen (台湾加油)   2017-11-09 18:40:00
数的估计,之前是根据人类棋谱,现在是根据自战
作者: Uizmp (黑袍法师)   2017-11-09 18:41:00
tl你所谓的"架构" 顶多是储存的方式, 而非储存的资料
作者: tlchen (台湾加油)   2017-11-09 18:41:00
不算是上面说的,不是我说的我说的架构是深度类神经网络的架构这架构不是随便设,然后就可以成功的
作者: Uizmp (黑袍法师)   2017-11-09 18:42:00
至于这个储存方式, zero也因此把两个神经网络合并
作者: tlchen (台湾加油)   2017-11-09 18:42:00
通常是对于不同的领域,然后不断去试,试出一个好的架构今天 alphago 试出一个好的架构,好的学习方法.这可是有用到人类棋谱
作者: Uizmp (黑袍法师)   2017-11-09 18:44:00
至于这个深度类神经的网络是否与围棋相关 这只有DM的人知道
作者: tlchen (台湾加油)   2017-11-09 18:44:00
我之前说的,若是连整个架构的选取都是由自战来评估,那我就认为是没有用到人类的围棋知识
作者: ddavid (谎言接线生)   2017-11-09 18:47:00
好吧,如果你把定义弄得如此广义的话也不能说彻底没用到人类围棋知识,但一般常用定义下并不会把学习架构也定义进去,自我决定架构这种事情Cost太高了,不太可能在这个等级的问题上实现(这等于是在围棋学习问题上面又架了一层架构学习问题,最糟的是这个层次其实可以无限上纲)
作者: birdy590 (Birdy)   2017-11-09 18:51:00
事实上程式的架构仍然不算运用人类围棋知识
作者: ddavid (谎言接线生)   2017-11-09 18:51:00
一般我们还是接受先拿部分人类知识来试一下可能比较好用的
作者: ddavid (谎言接线生)   2017-11-09 18:52:00
学习架构,之后清空人类知识保留架构开始自我学习,这样还是可以算后面这次的学习没有用到人类知识作为训练要用非常非常非常广的广义才会把架构也当成人类围棋知识建立出来的东西因为其实这些架构标准来说是人类知识,可是不算是人类围棋
作者: Uizmp (黑袍法师)   2017-11-09 18:55:00
他的意思, 如果是因为棋谱导致使用A架构而非B架构, 就算有
作者: ddavid (谎言接线生)   2017-11-09 18:55:00
知识所建立的,我们是从已知类型的架构中选取一个结果好的
作者: birdy590 (Birdy)   2017-11-09 18:56:00
开发过程决定用架构或参数也不是看棋谱 是看对战状况吧在没有真的试过以前, 有谁知道怎么做比较好?
作者: ddavid (谎言接线生)   2017-11-09 18:57:00
,而不是从围棋知识建立出一个专下围棋的架构
作者: Uizmp (黑袍法师)   2017-11-09 18:57:00
但可能不管是从人类棋谱或AG的自战棋谱 结论可能都一样
作者: ddavid (谎言接线生)   2017-11-09 18:57:00
@Uizmp 对,他就是那个意思,而其实那就是超级广义XD
作者: birdy590 (Birdy)   2017-11-09 18:58:00
这里面围棋知识其实几乎没有, 应该说是写程式的知识
作者: Uizmp (黑袍法师)   2017-11-09 18:59:00
但或许是因为抛弃人类棋谱,才两个网络合一,这就不得而知了
作者: birdy590 (Birdy)   2017-11-09 19:00:00
两个网络合一是方便自我训练~ 其实本来就有人在猜会合一
作者: tlchen (台湾加油)   2017-11-09 19:06:00
开发过程决定架构你说是看对战,不是看棋谱.请问是看谁的对战?
作者: birdy590 (Birdy)   2017-11-09 19:07:00
训练都是用从自己乱下开始的自战棋谱
作者: tlchen (台湾加油)   2017-11-09 19:07:00
若像你之前说的, 阿猫阿狗的对战,不是人类的,那就没用到
作者: tlchen (台湾加油)   2017-11-09 19:08:00
看人类对战,或是跟人对战,那就用到人类围棋知识
作者: birdy590 (Birdy)   2017-11-09 19:08:00
因为 DM 是在完全未知的领域 怎么做比较强 -- 试了才知
作者: tlchen (台湾加油)   2017-11-09 19:13:00
就说不只是写程式的知识.每个领域的应用,要用怎样的架构合适,要实际去试才知道.而先前 alphago 版本决定用的架构,并
作者: birdy590 (Birdy)   2017-11-09 19:13:00
还是要试过才能决定 那跟围棋知识有什么关系?
作者: Uizmporm   2017-11-09 19:21:00
我说了 那个可能用人类棋谱或自战结论相同 那要怎么算
作者: birdy590 (Birdy)   2017-11-09 20:28:00
试它好不好 直接两个程式对下不就得了
作者: tlchen (台湾加油)   2017-11-09 21:51:00
以你的说法,前一版 master,用人类棋谱学,也是没用到人类围棋知识
作者: birdy590 (Birdy)   2017-11-09 21:56:00
训练过程隐含着从棋谱提取特征的意思广义来说用人类棋谱可以解释成接收人类的观念所以从乱下开始完全自己产生棋谱自己学的意义重大
作者: jamesho8743 (加拿大好美)   2017-11-09 23:22:00
的确是这样没错 应该是这样说 master程式的确也没用到人类围棋知识 但是master在run 以人类棋谱输入训练出来的成品 就受到人类知识的影响之前版本的alpha go 本来就没一定要用人类棋谱 它也可靠自我对战训练 只是初期版本算法不够好 收敛地不够快 如果完全从0开始 训练时间会很久

Links booklink

Contact Us: admin [ a t ] ucptt.com