Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程 staristic PTT批踢踢实业坊

Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程

楼主: staristic (ANSI lover) 2017-11-11 10:22:34

原文恕删
我相信原po是真心很认真的想讨论
也很欢这讨论的风气
但是，原po的问题却得到一个几乎大家围攻的结果
我来举个例子说明为什么大家会觉得原po在钻牛角尖好了
今天我们把问题换成排序
假设有一群刚发明电脑的工程师，现在在建构最初的算法
他们试图解决排书柜的问题
于是他们先试着模仿人类的排书的方法，比方说排 “4, 5, 6, 1, 3, 2”
的时候，人类会把 4,5,6 一起处理 (回忆一下人是怎么处理书架上的书的)
于是他们弄出了一套算法，但是效能不怎样
对应围棋AI的例子，传统的Zen，CrazyStone 就是这样的算法
然后突然有一个天材，发现了 Bubble Sort
一个电脑按自己的方式排，又借镜了一部份人类排序的经验(一直把小的往前丢)的算法
相当于 AlphaGo 出现了
最后，另一群天材把这个算法优化成 Quick Sort
一个人类在现实中排书绝对不可能用到的算法
相当于 AlphaGo Zero (小朋友学棋再怎样也不会教他从乱丢开始，对吧？)
发了篇论文说明他们整个算法共同的地方只有一段“交换位子”的函式
其它都不一样
换成 AlphaGo ，就是告诉你，我都是用机器学习作方法，但是其它都不一样
然后原po现在的质疑在一般人的眼中看起来像是：
Quick Sort还是用到了人类排序书柜的经验！
当然大家会觉得莫名
有人会有 Quick Sort 来排书架吗？
大概是这样

作者: jackcselab (monk) 2017-11-11 10:29:00

我觉的是他一开始举了一个错误的例子(棋局停止)，突显他不了解围棋规则，导致后续讨论就充满了火药味了进而让他的原意失焦了

作者: HeterCompute (异质运算) 2017-11-11 10:54:00

风向就是从那个棋子不能自杀的时候被带起的QQ

作者: tetratio (彻拉修) 2017-11-11 11:49:00

我真的有用quick sort排过一大堆乱掉的书...不过大概不影响你的举例啦

作者: HeterCompute (异质运算) 2017-11-11 12:08:00

人类可以学sort，但是不能学神经网络，有种来把神经网络背起来啊

作者: ztdxqa (ztdxqa) 2017-11-11 12:12:00

XD 这举例好传神耶但原po还是不懂quicksort阿

作者: HeterCompute (异质运算) 2017-11-11 12:17:00

t大都说数学统计出身会learning，说他不会QS会不会太侮辱人

作者: s891234 (嘟噜咑) 2017-11-11 12:58:00

人类用Quick Sort干嘛啦XDDD只会比较烦而已

作者: ForeverOrz (Lumis eterne) 2017-11-11 14:04:00

譬喻不错但原po怀疑是有理也没错

作者: hannocps (拍劭) 2017-11-11 14:11:00

quicksort是啥…是否可以解释一下

作者: HanaYukii (ShioRin) 2017-11-11 14:32:00

随机取中点小丢左大丢右递回到每区剩一个

作者: jpg31415926 (圆周率π) 2017-11-11 16:36:00

人类比较偏向insert或select不过不影响你的举例XD

作者: oldTim (TIME WILL TELL) 2017-11-11 17:33:00

推，好比炼金术士和化学家的关系，化学家有参考炼金术士的实验结果，用完全不同的一套理论体系去筛选、解释最终产生新的一套科学事实，里面虽有部分认定炼金术士经验也符合科学事实，但这显然跟认同炼金术士的经验是两回事

作者: tlchen (台湾加油) 2017-11-11 18:46:00

板主举的例子,从 Bubble Sort 变成 Quick Sort, 是属于我说的模型不同. 而不是 master 与 Zero 的最大差别在参数优化参数优化, Zero 不同于 master, 没用到人类棋谱,这没争议但在模型上, 并没有太大的改变我要质疑的是, 这模型是否用到人类围棋知识

作者: capita (小明) 2017-11-11 18:51:00

模型差别很大啊

作者: Uizmp (黑袍法师) 2017-11-11 18:53:00

我可不可以问一下tl一直要追究这个问题的原因是什么?

作者: oldTim (TIME WILL TELL) 2017-11-11 19:07:00

Zero只用一个policy network这样模型的差别还不够明显吗?

作者: HeterCompute (异质运算) 2017-11-11 21:05:00

master哪有跟zero模型天差地远差rollout和一开始是监督学习而已，神经网络一样你搞错了吧，master就已经合并了

作者: birdy590 (Birdy) 2017-11-11 21:54:00

其实主要差别只有训练吃的棋谱不一样

作者: CGary (下雨天也挺浪漫的) 2017-11-12 00:35:00

一样的他们只是选用了不同参数给了不同资源因为他们想试试看Master的模型能不能通用但是我觉得实作的内部可能还是差很多因为如果事情只是rollout跟开始的监督部分就不会需要请aja把有内建围棋知识的code拿掉了想必那边有很多细微的优化是他们没讲（也不开源，所以应该就是不会讲了）

楼主: staristic (ANSI lover) 2017-11-12 00:46:00

意思是这部份反正他不开源，只能相信Deepmind的宣布再吵也没意义，对吧？

作者: HeterCompute (异质运算) 2017-11-12 00:48:00

就算他是先射箭再画靶，你也没办法啊XD

作者: CGary (下雨天也挺浪漫的) 2017-11-12 01:28:00

这个其实有个方法就是别人照着DM的paper实作做不出来攻击他们, 但目前没有太多公司有这么强的运算资源做这种验证...

作者: birdy590 (Birdy) 2017-11-12 01:36:00

大概只有腾讯出的起愿不愿意花就难讲了google自己搞TPU就先省一大笔

作者: aegis43210 (宇宙) 2017-11-12 03:58:00

光训练一个20block res-net，没百张1080ti就免谈...

作者: OverInfinity (超越无限) 2017-11-12 23:40:00

master的时候还是有两个网络啦 zero才只有一个

作者: sunev (Veritas) 2017-11-13 00:22:00

楼上可参考HeterCompute的笔记：[情报] 黄博士今日演讲内容

作者: OverInfinity (超越无限) 2017-11-13 01:35:00

感谢，确实论文也是这样写的没错

楼主: staristic (ANSI lover) 2017-11-13 01:51:00

我发现搞错的不止我一个，稍微得到一点安慰XD

作者: OverInfinity (超越无限) 2017-11-13 01:55:00

XDD

作者: elfkiller (没有暱称) 2017-11-16 02:01:00

其实我不懂质疑论文标题有什么意义......当然是可以质疑拉...... 顶多就是用字不精确罢了给人家的感觉就是好像网络笔战抓错字一样......

继续阅读

Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程tlchen [心得] 三个你不该买zen7的理由HeterCompute [新闻] 柯洁：未来属于AI 我将在金融和教育做探索qweewqq [新闻] 围甲联赛启用“新规则” 队员首次上交手机qweewqq [情报] Leela 0.11.0 & Leela Zerolockcole [情报] 黄博士今日演讲内容HeterCompute [讨论] 如果有机会问黄士杰博士问题cabon Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程capita Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程jamesho8743 [新闻] 柯洁:只要观众愿意，会继续和人工智能对奕qweewqq