[新闻] 中国版人机大战缘何沉寂？刘:缺乏专业人才 zkow PTT批踢踢实业坊

[新闻] 中国版人机大战缘何沉寂？刘:缺乏专业人才

楼主: zkow (逍遥山水忆秋年) 2016-11-25 21:49:59

中国版人机大战缘何沉寂？刘知青：缺乏研究人才
　文章来源：北京青年报
　　一年前，在北京工体旁的网鱼网咖，第一届世界电脑围棋锦标赛上，来自中国、韩国
、日本、美国、法国、捷克的围棋人工智能软件捉对厮杀了3天后，总冠军韩国的“石子
旋风”受让5子，却被中国七段棋手连笑击败。那时还无人知晓AlphaGo的大名。一年过
去了，围棋AI（人工智能）早已被炒得火热，去年曾在北京亮相的日本围棋软件“ZEN”
，也首次不受让子，前天与日本著名棋手赵治勋九段战成1比2。可这一年间，中国的围棋
智慧软件哪儿去了？
　　阿尔法狗火了中国AI却沉寂
　　“第二届世界电脑围棋锦标赛？早就确定不搞了。”首届锦标赛媒体推广人陈昭告诉
北京青年报记者，“中国研发人员觉得，如果达不到AlphaGo今年3月与李世石对阵的水准
，那还不如不露面。”
　　去年，来自北京邮电大学、武汉大学，以及台湾的三支中国队伍参加了角逐。但最好
的一支国内队伍仅获第七名。在连笑轻松战胜人工智能冠军“石子旋风”后，现场观战的
中国围棋队主教练俞斌九段认为，电脑真正下过人类，还得20年。
　　今年3月AlphaGo4比1完胜韩国名将李世石，证明了智能的成长性。中国也随即掀起讨
论围棋智慧的热潮。又过了8个月，北青报记者发现，中国相关围棋智慧研究，依然处在
缺乏政策倾斜，少有资金眷顾，各自为战的松散局面。
　　拥有天河二号不等于AI厉害
　　当AlphaGo4比1大胜李世石，专家跌碎一地眼镜之余也指出，其成功之道不止是软件
的突破，还有大金主的资金和硬件的支援。但当时就有中国棋友诘问：我们有天河二号啊
！
　　天河二号超级电脑作为中国“最强大脑”，耗资一亿美元打造，峰值计算速度每秒
5.49亿亿次，内存总容量1400万亿字节。2015年以每秒33.86千万亿次的浮点速度，
第六次蝉联世界超级电脑排行榜的冠军。
　　陈昭坦言，在策划第二届电脑围棋锦标赛时，曾经联系过天河二号所在的广州超算中
心。“联系了一阵，后来还是决定不搞了。”北青报记者从北京邮电大学电脑围棋研究
所所长刘知青教授那里，了解到更多详情。据他介绍，搞围棋人工智能，靠一个人，一台
电脑肯定不行，一定要有顶级硬件条件支援。“但另一方面，我们还需要长期在围棋人
工智慧领域工作的人才，还需要在软件方面有所突破，才能真正把硬件优势发挥出来。”
他说。换言之，没有类似AlphaGo 那样的智慧软件，硬件再快也无用武之地。
　　还在解读AlphaGo论文阶段
　　那么，中国围棋智慧软件水准目前处在什么层次？刘知青一方面表示，这一年我们的
软件水准还是有进步的，一方面也承认，目前大家的目标，就是解读AlphaGo之前发表的
论文，“争取达到它在今年3月的水准。”
　　在AlphaGo之后，人工智能领域最大的进步，当属日本围棋软件DeepZenGo。去年的锦
标赛，“ZEN”还不能在程式间的对决中获胜，一年后已不受让子胜赵治勋九段一盘。但
对此成绩，刘知青并不太认同。“从去年受让6子，到如今战胜赵治勋，确实有进步，”
他说，“但还没有达到 AlphaGo的水准。”
　　即使如此，中国尚没有匹敌“ZEN”的围棋软件。但刘知青认为，中国已走在正确的
道路上。“AlphaGo证明了人工智能走神经网络，价值判断的路是正确的，我们的AI也走
这条路。相信在消化吸收了AlphaGo的论文，我们会取得更多突破。”
　　缺乏资金和政府层面支持
　　值得注意的是，去年首届锦标赛上，已经提出走商业化发展的中国围棋AI，没有在
AlphaGo打出的人工智能风口推动下飞上天，反而陷入各自为战的沉寂。
　AlphaGo与李世石的人机大战刚过去一周，中国人工智能协会就会同中国围棋协会召开
论坛，邀请包括工程院院士李德毅、北邮校长林金桐等各界人士，讨论人工智能前景。而
具体到北邮电脑围棋研究所研发的围棋AI，最终也未获得政府或大企业的青睐。
　　那么，是围棋人工智能的应用前景不被看好吗？刘知青予以否认。他认为，AlphaGo
有强大的总体把握能力，可以简明地把优势转化为胜势。而围棋问题有天文数字的状态空
间和决策空间，解决围棋问题，是证明人工智能研究突破的重大节点。
　　如此具有前景的应用领域，已经吸引了国外多个科技巨头投入，而在中国似乎还处在
各干各的局面。“比如前一阵，我们经政府牵线，与腾讯人工智能部门谈过合作，后来不
了了之，最近听说他们在自己搞相关工作了。”刘知青说。
　　刘知青坦言，中国目前其实不缺硬件，更不缺资金，缺乏的是长期在该领域投入的研
究人才和时间的累积。“目前中国在这一领域时间最久的就是我，也不过十余年。未来中
国只有在人才积累，软件科技积累达到一定水准，才能取得突破。”也许那时才是中国相
关人工智能的真正风口。（记者褚鹏）
http://sports.sina.com.cn/go/2016-11-25/doc-ifxyawmm3363951.shtml

作者: aaaba (小强) 2016-11-25 22:23:00

alphaGo论文参数都出来了，起跑线就是定死在这边，干嘛要跟刘知青合作，那样还得派车回头把他接来起跑线看这文章只说明了他是局外人

作者: arthurwang (莫言) 2016-11-25 23:21:00

就为了中国人的面子，坚持要搞一个完全自己的AI嘛

作者: Lordaeron (Terry) 2016-11-25 23:40:00

@aaaba你确定照论文可以出一个打败一般业余选手的?

作者: aaaba (小强) 2016-11-26 00:18:00

不是我讲的话你问我确不确定干嘛...我上面推文中哪边可以得出你问题里的叙述

作者: MonkeyCL (猴总召) 2016-11-26 01:00:00

台湾又被偷渡在中国国内里面了

作者: skyhawkptt (skyhawk) 2016-11-26 01:57:00

天河二只是跑分好看，至于AI https://goo.gl/xV8p4B

作者: semihumanity (沙漠之狐) 2016-11-26 04:20:00

都过多久了还在解读论文，有点弱啊！

作者: jpg31415926 (圆周率π) 2016-11-26 08:39:00

硬件规格就是钱堆出来的怎么用才是重点吧

作者: Lordaeron (Terry) 2016-11-26 09:44:00

see?alphaGo论文参数都出来了，起跑线就是定死在这边.从alphago的论文, 有定出起跑线?

作者: aaaba (小强) 2016-11-26 10:19:00

所以跟5F的陈述有关联吗？不要乱生话啊生完还想塞到别人嘴里要别人解释，莫名其妙

作者: nanlong (懒龙) 2016-11-26 12:28:00

前阵子的讯息是中国有AI已跟一般围甲棋手打的差不多估计应不输这次上场的Zen。后面1年大概仍是AlphaGo一支独秀, 日本跟中国争大老二。但拉到3年后? 就不好预测了。怕google没兴趣继续投入围棋AI。

作者: aaaba (小强) 2016-11-26 12:48:00

http://i.imgur.com/WDiv1pi.jpg 而且根据黄博士的说法，讲alphaGo的论文是中国软件业大公司的起跑线，应该不为过，不认同也就罢了，个人自由。但硬是想出一句风马牛不相及的论点然后要求对方解释，还真的不晓得下限为何。

作者: Lordaeron (Terry) 2016-11-26 12:55:00

@aaaba,话是你讲的, 我是没看到什么起跑线的.不然请你指出在哪?

作者: aaaba (小强) 2016-11-26 12:56:00

你先解释5楼的言论吧？

作者: Lordaeron (Terry) 2016-11-26 13:26:00

@aaaba,解释什么? 你自己说, 起跑线就在哪.又说参数都有. 当然得问说是不是照招就有alphago囉至于你说是aja讲的, 最少你给出的图, 我看不出来他有讲

作者: aaaba (小强) 2016-11-26 13:31:00

“照论文可以出一个打败一般业余选手的” <-- 这句话到底是谁说的？

作者: Lordaeron (Terry) 2016-11-26 13:32:00

你的意思就是这样, 不然是什么?还是你想AJA的话, 又解释成你的样子?

作者: aaaba (小强) 2016-11-26 13:35:00

我的意思不是这样，不要生话塞给别人秀下限我是在说腾讯为何不用跟刘知青合作，你想到哪去了我可无法理解

作者: Lordaeron (Terry) 2016-11-26 13:39:00

起跑线跟腾讯为何不用跟刘知青合作有何关系?

作者: aaaba (小强) 2016-11-26 13:39:00

这跟你随便找一个人来复制论文，却打不过业余棋手根本两回事

作者: Lordaeron (Terry) 2016-11-26 13:40:00

更妙的是aja 没讲过你的:中国软件业大公司的起跑线.这样的话, 是谁塞话给别人了?

作者: aaaba (小强) 2016-11-26 13:40:00

你先承认帮别人生话吧你你质疑的点换来换去，我就问你5楼的话是不是你生的？

作者: Lordaeron (Terry) 2016-11-26 13:42:00

我没帮你塞话, 话是你讲的, 变我了?

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 13:42:00

OUI

作者: Lordaeron (Terry) 2016-11-26 13:43:00

aaaba:alphaGo论文参数都出来了，起跑线就是定死在这边英译:flow alpahgo paper and you will get the same

作者: aaaba (小强) 2016-11-26 13:44:00

呵，我那句提了某人复制论文的棋力跟业余棋手的关系

作者: Lordaeron (Terry) 2016-11-26 13:44:00

as alphago.还需要中译一次吗?另外, 塞别人话的人是你,你的截图中AJA 什么都没讲.结果到你口中, 变成中国企业的起跑线了.

作者: aaaba (小强) 2016-11-26 13:46:00

你复制论文不成功，干我屁事？

作者: Lordaeron (Terry) 2016-11-26 13:47:00

哪你复制成功了?你知什么是supervise ?

作者: aaaba (小强) 2016-11-26 13:48:00

我又没说复制论文就一定成功，你还要翻成flow什么的，红蓝式翻译吗？

作者: Lordaeron (Terry) 2016-11-26 13:49:00

你没说一定成功啊,意思是成功就是? 你知supervise?

作者: aaaba (小强) 2016-11-26 13:50:00

我那句说一定成功，你又在生话我不用知道supervise也知道你生话塞给别人

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 13:51:00

痒痒

作者: Lordaeron (Terry) 2016-11-26 13:52:00

不成功, 哪来起跑线? 还要转?你知什么是deep learning 是supervise 的？不知什么是supervise, 就别乱讲, 照论文可以出起跑线.还有,aja也没讲过什么中国企业的起跑线之类的话.爱塞话的人是你. 别转了.

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 13:58:00

旋转跳跃我B着眼~

作者: aaaba (小强) 2016-11-26 13:59:00

你起跑失败也要怪东怪西？他论文写在那边，你复制的效果是你家的事

作者: ztdxqa (ztdxqa) 2016-11-26 14:01:00

插个话 Lordaeron语文能力不太好对话看得有点辛苦中文英文都不大好XD

作者: aaaba (小强) 2016-11-26 14:03:00

至少那些公司是先试图重现alphaGo部分成果，不用回头找刘知青。然后你生那些英文，显得可笑，没有论述的单词一直屁有什么用？

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:04:00

一群铜牌

作者: ztdxqa (ztdxqa) 2016-11-26 14:06:00

说实在话要复制AlphaGo的论文太难了有太多训练的技巧

作者: Lordaeron (Terry) 2016-11-26 14:06:00

如果不知什么是supervise,哪么, 你的重现是什么鬼?

作者: ztdxqa (ztdxqa) 2016-11-26 14:07:00

深度强化学习比普通的CNN要难训练太多了 DeepMind那群人

作者: Lordaeron (Terry) 2016-11-26 14:07:00

@ztdxqa, 你是?

作者: Lordaeron (Terry) 2016-11-26 14:08:00

@ztdxqa,又来帮别人讲话了.你等DeepMind?还是有试图复制过AlphaGo的论文?

作者: aaaba (小强) 2016-11-26 14:09:00

z大说法中肯，哪像某人一副我如果复制失败你来负责的拽样

作者: Lordaeron (Terry) 2016-11-26 14:10:00

连supervise 都不懂是什么的人, 还可以帮别人生话.说什么起跑线的.

作者: ztdxqa (ztdxqa) 2016-11-26 14:10:00

我没有复制过但是知道非常的困难

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:11:00

最i你der人4我你怎么舍der窝难过~

作者: Lordaeron (Terry) 2016-11-26 14:11:00

没你也知, 这么强?

作者: ztdxqa (ztdxqa) 2016-11-26 14:11:00

你是要说监督是学习吗帮你更正一下supervise"d" learning

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:12:00

买个表买个表

作者: Lordaeron (Terry) 2016-11-26 14:12:00

我只看到你说, 复制alphago 的论文, 就有alphago 而已.而不知道, 什么是supervised

作者: aaaba (小强) 2016-11-26 14:13:00

呵，z大人好好，我还真希望听他多烙一些高深的英文词汇

作者: Lordaeron (Terry) 2016-11-26 14:13:00

不用多高深, 只是看到有人说复制alphago 的论文, 就有alphago而已，

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:14:00

One night in古亭我liu下许多情~~~~

作者: aaaba (小强) 2016-11-26 14:14:00

又开始生话

作者: Lordaeron (Terry) 2016-11-26 14:14:00

还敢拿出aja的对话，来塞他话。又开始装傻了, 一楼的推文就在哪. 要吃回去?

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:16:00

唉原来妳也在这里

作者: Lordaeron (Terry) 2016-11-26 14:16:00

还有你根据aja说法的哪一段, 也要吃回去了?

作者: aaaba (小强) 2016-11-26 14:20:00

你自己定义起跑线=复制成功，然后赖来我头上，我的意思是那些公司先从着手复制论文起步，你不要再生话了行不行

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:23:00

妙笔生花省话一哥

作者: Lordaeron (Terry) 2016-11-26 14:27:00

哈...aaaba, 复制论文,参数都在哪, 不就是复制成功, 就有alphago了的意思?但明明就不知什么是需要supervise的.意思是, 结果的好坏, 是需要人去定义的.连它是supervised 的方法要人去supervise都不知.

作者: aaaba (小强) 2016-11-26 14:29:00

更可笑的是还翻成英文然后更改文意，哪招？

作者: Lordaeron (Terry) 2016-11-26 14:30:00

还敢说出, 复制论文就好了.

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:33:00

你从不知道我想做的不只是朋友~

作者: aaaba (小强) 2016-11-26 14:34:00

你不懂有参数代表可以少走很多冤枉路，也来在那边秀下限？这篇论文分享得很有诚意了，但能否成功，是看你自己的造化有参数又代表复制成功了喔？这招一直用，你烦不烦啊

作者: forfunmerely (æ£„ç½®å€’æ•¸ä¸) 2016-11-26 14:38:00

烦哪烦哪烦得没有力气烦哪　我烦啊烦哪烦哪烦得不敢相信烦哪烦哪烦得歇斯底里烦哪

作者: BRANFORD (请保佑我的父亲) 2016-11-26 14:53:00

f君吃了什么？我也点一份^_^

作者: semihumanity (沙漠之狐) 2016-11-26 15:39:00

AlphaGO的重点明明是reinforcement learning...不懂为什么一直提"supervise"我只知道supervised learning而且supervised learning也不是“人”去监督啊...

作者: Lordaeron (Terry) 2016-11-26 15:49:00

不然是谁去教他哪个是对错? 你懂参数会少走?AlphaGO的重点明明是reinforcement learning? 哪来的?

作者: Wush978 (拒看低质媒体) 2016-11-26 22:18:00

楼上要不要先去学一下再来问?否则说的内容像外行，口气却很冲，很不协调

作者: forb9823018 (风过无痕) 2016-11-26 22:27:00

论文有不少细节和参数没有写上去

作者: Lordaeron (Terry) 2016-11-26 22:30:00

@Wush978, 哪还得让你来教我一下呢.@forb9823018, 要不要先去学一下再来讲,不然Wush978...

作者: forb9823018 (风过无痕) 2016-11-26 22:32:00

我花了好几个小时论文看过好几次了看你的推文不知你又学了多少不如指教一下光是一堆feature的详细定义和怎么得出来的都没讲了

作者: Lordaeron (Terry) 2016-11-26 22:36:00

咦, 不是我说参数都在里面的哦, 别扯到我头上来.

作者: forb9823018 (风过无痕) 2016-11-26 22:36:00

不如你讲一下一些feature怎么实作

作者: forb9823018 (风过无痕) 2016-11-26 22:37:00

所以我说论文有不少细节和参数没有写上去这句话哪里有错?自己说自己也要去重学的人叫别人学一下再来讲...

作者: Lordaeron (Terry) 2016-11-26 22:40:00

请看清楚, 不然Wush978要怎么讲.

作者: forb9823018 (风过无痕) 2016-11-26 22:42:00

论文有不少细节和参数没有写上去=>这句话哪里有错又不是他对我的话有疑问是你有疑问当然问你我管他怎么讲我又不是回他

作者: Lordaeron (Terry) 2016-11-26 22:42:00

我觉得你没错, 但不代表aaaba及wush978, 而既然只是我觉得没错, 而Wush978叫我回去重学了, 只好提醒你囉.

作者: forb9823018 (风过无痕) 2016-11-26 22:43:00

你觉得我没错那你又怎么知道我没学过?我也没再回你是你自己跳出来对叫我回去学的

作者: Lordaeron (Terry) 2016-11-26 22:44:00

我跟你都觉得没错, 而我要重学, 推得.

作者: forb9823018 (风过无痕) 2016-11-26 22:46:00

我觉得就算能100%还原原文也顶多只能追到跟原本发表时差不多的结果alphago这时不知又进步多少

作者: Lordaeron (Terry) 2016-11-26 22:47:00

哦, aaaba就说了, 照论文就能100%的了, 就是人家的起跑线了.

作者: forb9823018 (风过无痕) 2016-11-26 22:48:00

机器学习很多时候都是想出一些看似可行的方法但实际效果如何没跑过不知道除非可以问deepmind团队里面个个名字的细节不然很有可能光是复制就走很多冤枉路

作者: Lordaeron (Terry) 2016-11-26 22:49:00

直接copy code 比较快吧.

作者: forb9823018 (风过无痕) 2016-11-26 22:51:00

随便找一个人来复制论文...就算是专家如果只有一个人

作者: Lordaeron (Terry) 2016-11-26 22:51:00

@forb9823018, 哇, 你完全和aaaba说法相反了呢.

作者: Lordaeron (Terry) 2016-11-26 22:53:00

当然不可能一篇就全讲, 也不可能讲得清的.

作者: forb9823018 (风过无痕) 2016-11-26 22:53:00

不一样就要整个打掉重来

作者: forb9823018 (风过无痕) 2016-11-26 22:55:00

有论文当然比没方向好但deepmind团队机器学习的专家全世界最顶尖的100人中里面就占好几个了他们重确定架构到微调成之后的强度也花了不少时间其他人不想做的原因是花很多人力物力只复制出很之前的进度目前其他还有在座的团队的目标大概是能做出一般电脑能跑齐力有一般职业水准的电脑最顶尖大概只会留给deepmind自己做了

作者: aaaba (小强) 2016-11-26 23:29:00

我只说了其他公司以复制该篇论文起步，然后论文里有满多训练时的参数非常有参考价值(没完整却也足够让其他公司做出超越v13的版本了)，而找刘知青来帮助不大。至于什么保证百分之百成功这些我没说，有点羞耻心就别一直玩抹黑这套

作者: Lordaeron (Terry) 2016-11-26 23:41:00

这么快吃回去了? 还好推文还在呢.等等等alphago 教学中....

作者: HeterCompute (异质运算) 2016-11-26 23:46:00

楼上这些人只是因为ptt不知道语气于是在为了说话细节上争吵，有点可爱XD本来这些都是不需要争的XD

作者: Eric0605 (我还有点饿) 2016-11-27 00:17:00

最强的软件人才都去欧美了中国最强的软件人都搞电商了至于AI 中国人大概还只拿来当游戏跟本没有公司想做

作者: aaaba (小强) 2016-11-27 00:31:00

我就不信狂问别人supervise是什么的人能有多少料，结果一说到feature就说自己要重学，然后靠着嘴炮到别人懒得回就在那边得意...

作者: Lordaeron (Terry) 2016-11-27 00:40:00

@aaaba,我需不需要重学你不知道, 但你绝对是连哪是什么都不知, 就将话讲满了, 连AJA没讲的都塞给他了.我就等大师来教我ALPHAGO 的论文.Wush978, 快来一篇吧.

作者: semihumanity (沙漠之狐) 2016-11-27 02:55:00

不知道reinforcement learning？肯定没看论文明明是machine learning外行人，讲话还这么冲…

作者: Lordaeron (Terry) 2016-11-27 08:51:00

我有没有看论文, 是不是外行人, 就等你来教.你真内行, 就开一篇看看. 看你看论文看得怎样.Wush978, 快来一篇吧.

作者: ddavid (谎言接线生) 2016-11-27 09:23:00

我怎么觉得起跑线跟复制完全是两回事，复制成功明明就是终点线不是吗XD然后Supervised中所谓好坏确实是人定义的，但不代表学习过程中需要人去看……，人类的Supervised是运作在学习前对使用的资料进行定义，以及学习后回顾检查并解读一下结果，学习中人力是不介入的学习中要有人力介入的，叫做Semi-supervised learning不管是Supervised还是Unsupervised learning都是学习过程中不用人力监督的，因为那个Supervised根本不是在指学习过程至于AlphaGo并非Supervised learning，这又是另一回事了

作者: semihumanity (沙漠之狐) 2016-11-27 11:09:00

连深度学习基础都没有、只会呛的人该怎么教…这已经不是半瓶水响叮当了，根本是空瓶子吵死人XD如果你真的有兴趣请去下载论文，搜寻reinforcement等你把论文看完再来发问好吗？不要再乱呛人了唷

作者: Lordaeron (Terry) 2016-11-27 12:23:00

@semihumanity, 就等你开一篇, 少在这reinforcement.Wush978, 没开, 你可以来开.你的Deep learning 的课，快开。别在这一直跳针式的扯reinforcement.提醒你们一件事, 自monte carlo方法出来后, 围棋AI 就有一次大的进展了, 而这些作AI 的人, 照你们的说法, 都是笨蛋, 将monte carlo和reinforcement结合.不就解决了, 等什么ＢＢＣ之类的呢。

作者: semihumanity (沙漠之狐) 2016-11-27 13:06:00

死不看论文，只会呛人...你没付钱，凭什么要人教？AlphaGO就是MCTS结合deep learning用reinforcementlearning学习，才得到这样的棋力。结果还是不小心教了...伸手党真是不可取

作者: Wush978 (拒看低质媒体) 2016-11-27 13:22:00

同领域的看推文就知道有没有料了楼上太佛了

作者: Lordaeron (Terry) 2016-11-27 13:38:00

@semihumanity,Wush978. 台大刚好有篇文章, 自己看.太佛了.要是单单reinforcement有用, 还用等到CNN的加入?而通过自下的方式增强棋力, 正是AJA 的毕业论文.而他的毕业作品程式, 就嬴过一次围棋AI 冠军.要是单单这个可这么强, 哪就不会只有一次了.

作者: aaaba (小强) 2016-11-27 13:54:00

又在生话了，别人没说“单单”，自己在那边单单

作者: Lordaeron (Terry) 2016-11-27 14:10:00

哈....不是用XXX才有吗? 哪不用就没有了呢.所以主要是reinforcement 啊.

作者: roujuu (è€ä¸) 2016-11-27 14:10:00

根据‘ http://0rz.tw/YzQSX ’，大陆不是有

作者: roujuu (è€ä¸) 2016-11-27 14:11:00

“神威‧太湖之光”吗？她平常每日CPU time不是只用到60%

作者: Lordaeron (Terry) 2016-11-27 14:12:00

还好我们不同领域,也还好我也可以看推文就知道有没有料

作者: roujuu (è€ä¸) 2016-11-27 14:12:00

，可以用她写类似AlphaGO的东东，也可以不用使用DeepMind的程式构想方式，只要找对人，应该很快就可以和AlphaGO分先了。

作者: Wush978 (拒看低质媒体) 2016-11-27 15:00:00

那你前面讲的supervised 用你自己论点打不就更可笑吗?XD

作者: Lordaeron (Terry) 2016-11-27 15:01:00

啊?我打什么了? alphago的重点是supervised.是谁跳出来加持一下reinforcement?有没有料, 一看就知道...fuego 就是用CNN supervised加强可以赢GNU GO 达97%

作者: aaaba (小强) 2016-11-27 15:04:00

无知还狂问别人supervise是什么，哈哈哈

作者: Lordaeron (Terry) 2016-11-27 15:04:00

而你们两位口中的reinforcement 在aja的论文就有了。

作者: Wush978 (拒看低质媒体) 2016-11-27 15:05:00

alpha go 的重点是过去人类的棋谱还是他自己下的?

作者: Lordaeron (Terry) 2016-11-27 15:05:00

重点在reinforcement的话, aja 的程式的结果要比fuego好才对.

作者: Wush978 (拒看低质媒体) 2016-11-27 15:06:00

所以说你外行啊，这行哪有这么简单“有用这个就会强”“因为aja过去的AI只拿一次冠军所以reinforcement learning 不重要” 能下出这种推理，我是觉得也太...

作者: aaaba (小强) 2016-11-27 15:09:00

而且连reinforcement是一个类别也不知道，说什么早就有用，用起来学问可大了，不是一句有用过就完事了

作者: semihumanity (沙漠之狐) 2016-11-27 15:55:00

越讲破绽越多XD连训练方式和网络架构都分不清楚你以为reinforcement learning只有一个algorithm?CNN只有一种训练方法？

作者: ggoutoutder (女朋友的左手) 2016-11-27 15:59:00

原来是AI版我还以为是围棋版

作者: semihumanity (沙漠之狐) 2016-11-27 16:01:00

AlphaGO如果没用reinforcement learning，只用人类棋谱做supervised learning，程度就是业余段位而已不读论文，只会讲一些似是而非的东西

作者: wjmd92 2016-11-27 16:12:00

真精彩！看到这里，先打个卡，明天续看

作者: Lordaeron (Terry) 2016-11-27 16:12:00

@semihumanity,Wush978, 有用到又如何?@Wush978, 不然主要是什么?还要转吗?我有说过AlphaGO没用reinforcement learning?

作者: Wush978 (拒看低质媒体) 2016-11-27 16:15:00

Alpha GO棋力会强是因为过去人类的棋谱还是他自己对自己的棋谱?

作者: Lordaeron (Terry) 2016-11-27 16:15:00

还是说重点不是reinforcement learning.@Wush978, 当然是过去人类的谱.要是自己对下的谱, 哪aja 的论文就够了.内行?就有人一直鬼扯别人都不懂. 懂不懂, 很清楚.

作者: semihumanity (沙漠之狐) 2016-11-27 16:21:00

真的是活在自己的世界耶~AlphaGO是靠自我对奕三千万盘才达到职业九段以上的棋力好吗？论文和DeepMind的宣传都有讲，您为什么要这样呢？

作者: ztdxqa (ztdxqa) 2016-11-27 16:23:00

Lordaeron还是先去看论文好了别再秀下限了

作者: Lordaeron (Terry) 2016-11-27 16:25:00

@semihumanity,谁不得论文, 很清楚的.

作者: ztdxqa (ztdxqa) 2016-11-27 16:27:00

真正把AlphaGo推到职业顶尖的关键就是DRL

作者: Lordaeron (Terry) 2016-11-27 16:27:00

文中清楚的跟你讲, 它是improving SL.但是在SL 的基础上作的.中译, 就是你没有SL 作底, 你是什么?

作者: Wush978 (拒看低质媒体) 2016-11-27 16:28:00

论文里面的描述是学习有三阶段, SL of policy network,RL of policy network, RL of value network我是不太喜欢争论SL重要还是RL重要，因为这种行为本身就外行。但是说RL不重要，我是笑了

作者: semihumanity (沙漠之狐) 2016-11-27 16:29:00

算了算了~他活在自己的世界开心就好XD

作者: ztdxqa (ztdxqa) 2016-11-27 16:33:00

喂棋谱只是给AlphaGo一个common sense 这样能到的棋力只有业余高段有点像是他的pretrained model接下来再靠自我对局去调整事实上整篇paper讲的都是RLpolicy跟value这两个词也是RL领域的术语 deep learning只是要把传统RL generalize到实际问题的方法

作者: Lordaeron (Terry) 2016-11-27 17:28:00

@Wush978,这么快, 就不玩了?@semihumanity,的确是活在自己的世界就好了, 连有过什么论文都不知.而RL 是imporived SL, 当然RL比较常见.同样是CNN的状况, ALPHAGO就大输fuego.这要算业余高段?

作者: semihumanity (沙漠之狐) 2016-11-27 18:04:00

AlphaGO大输fuefgo！XDDDD害我笑到打错字XD

作者: sean51623 (千阳) 2016-11-27 18:16:00

这串看完觉得大家好有耐心不要理他不就好了吗何必呢

作者: Wush978 (拒看低质媒体) 2016-11-27 18:20:00

RL不是improved SL，这两个东西不一样

作者: TWN2 (.....) 2016-11-27 18:21:00

AlphaGO大输FGO 以手游来说

作者: Lordaeron (Terry) 2016-11-27 18:28:00

不看论文的穿了哦！

作者: aaaba (小强) 2016-11-27 18:38:00

第一次在go板看到透过曝露自己短处来获得快感的人，总是会多看几眼，久了就会开始无视了

作者: blacktom (泉) 2016-11-27 18:41:00

你们都是资讯专家吗，好强喔，我啥都不懂

作者: Lordaeron (Terry) 2016-11-27 19:21:00

@aaaba,你不就是了, 当然Wush978+semihumanity三人组原来是不看论文的人,狂叫人家看论文.围棋AI 哪几支的论文都没看过的人, 却是内行人呢.

作者: Wush978 (拒看低质媒体) 2016-11-27 19:28:00

@blacktom，我是在相关领域工作多年了，只是看到有人发表一些错误概念，上来聊聊罢了要说服当事人我看是很难，但求错误的资讯别误导人就好RL对于alpha go 是相当重要的，根据nature 上的Masteringthe game of Go with deep neural networks and tree search 中可以得知，Alpha go 的机器学习分成三阶段：SL ofpolicy network, RL of policy network and RL of valuenetwork. 其中SL of policy network的部分，主要都是采用相关工作的方法，并没有看到太多新的东西, Paper中主要cite了5篇之前关于围棋AI的工作。RL of policy network的部分让SL的结果从预测下一手的问题转成赢棋>事实上，这篇paper自称最大的改善是在policy 和 valuefunction 上，所以他们主要的贡献在于导入Deep Learning相关方法来解决围棋AI的问题。看下来，说RL对Alpha Go不重要的理由到底是什么？明明内容中都在讲RL比较多了，SL都是之前的工作不过Alpha GO说不定最主要的贡献是发展在GPU上根据policyand value network做搜寻的算法，因为他们propose的做法计算量太大了，所以需要借助GPU等硬件工具做大大的加速

作者: Lordaeron (Terry) 2016-11-27 19:55:00

啊,不是说RL 跟SL 不同?我怎么看到The second stage of the training pipeline aims atimproving the policy network by policy gradientreinforcement learning (RL)往下还有一小段. and 12% against a slightly weakerprogram Fuego前面还有一段The RL policy network p ρis identical in structure to the SLand its weights ρ are initialised to the samevalues.

作者: aaaba (小强) 2016-11-27 19:59:00

秀下限又开始了，论文看不懂先承认再求人教你

作者: Lordaeron (Terry) 2016-11-27 20:00:00

@aaaba, 快来教我吧.你的参数都在哪, 快拿出来.

作者: Wush978 (拒看低质媒体) 2016-11-27 20:02:00

不同啊，因为两个方法看待资料的角度是不同。以这为例，RL的资料是自己产生资料，SL是观察的资料一个是观察的资料，一个是自我产生的资料SL的S在强调的是资料有提供答案，而RL则是要具备能产生资料的环境

作者: Lordaeron (Terry) 2016-11-27 20:11:00

继续转, 英文就在哪了. 谢谢.

作者: Wush978 (拒看低质媒体) 2016-11-27 20:11:00

以上是ML的一般知识，你想反驳请找定义不用拿一个应用的paper中的一句话来战你那句话只代表这个问题刚好SL和RL都能解

作者: Lordaeron (Terry) 2016-11-27 20:13:00

英文就在哪了. 谢谢.

作者: Wush978 (拒看低质媒体) 2016-11-27 20:18:00

你不信就算了，其他网友别被误导就好

作者: Lordaeron (Terry) 2016-11-27 20:36:00

我正在学当中, 不置可信, 我只学过pattern recognitionML这种高级货, 我是不会懂的.致于谁在误导别人, 就看谁整天叫人去看论文. 结果自己没看的吧.

作者: blacktom (泉) 2016-11-27 20:42:00

怎么都不发文？

作者: Lordaeron (Terry) 2016-11-27 20:44:00

这是围棋版, 不是AI 版.但你可以请他教你alphago的论文.

作者: semihumanity (沙漠之狐) 2016-11-27 21:20:00

原来你是论文看不懂啊...也对啦！训练方法和网络架构分不清楚，怎么会懂说出RL=SL这种话，我也只能笑了Wush，那句话并不是说SL和RL都能解喔...

作者: Lordaeron (Terry) 2016-11-27 21:31:00

@semihumanity, 我是真的看不懂的, 英文就在哪, 等你来解释嘛.不过, 你最好先实现一个alphago 出来, 比较有说服力.

作者: semihumanity (沙漠之狐) 2016-11-27 21:32:00

我前面说过了，我为什么要免费教你？你以为知识是免费的？

作者: Lordaeron (Terry) 2016-11-27 21:33:00

哦, 哪就算囉. 你这么懂alphago.

作者: semihumanity (沙漠之狐) 2016-11-27 21:33:00

我虽然没做过AlphaGO，但也自己写过RBM,CRBM,CNN

作者: Lordaeron (Terry) 2016-11-27 21:34:00

期待你的alphago 复刻版.加油1.

作者: semihumanity (沙漠之狐) 2016-11-27 21:42:00

我是没Wush那么好心，怕别人被误导。想学的人再问我

作者: Lordaeron (Terry) 2016-11-27 21:43:00

真的,连论文都没看的, 就会笑. 真的是不错.

作者: aoeu 2016-11-28 02:26:00

The RL policy network p is identical in structure to theSL and its weights p are initialized to the same values.中译: RL 的走子网络的 (类神经网络) 结构和 SL 用的结构相同。RL 训练的网络起始参数初始化为 SL 训练结果的参数。RL 和 SL 是不同的训练方式。AlphaGo 的目标之一是用 CNN 做为走棋的 model, 而 deep CNN 有两个重要的变因：神经元的连结方式和每个连结的权重 (weights)。这句话的意思是在连结方式上，SL 和 RL 这两个阶段训练用的是相同的结构。而权重的部份，SL 和 RL 都需要一组初始值。不同的初始值会影响 model 收敛的速度。最简单的方式是乱数，但 AlphaGo 用 SL 训练好的权重当作 RL 的初始值，可以加快收敛，也可能让结果更好。另外 AlphaGo 的 SL 训练方式是用 KGS 还是哪个 server (忘了) 的高端棋谱，而不是真的有一个人在旁边修正。SL 用的都是之前的技术，虽然无法打败一流棋手但也算是一个有一定程度的 model, 用来当作 RL 的初始的 model 可以想成省去用 RL 从初心者开始训练的漫长过程。DeepMind 之前也有说他们想尝试拿掉 SL 纯以 RL 来训练。AlphaGo 的核心价值就是 DNN + RL。这两者的 "概念" 都是以前就有，但把两者结合起来并发展出一套适合用在围棋上的model 是相当有难度的，也是 AlphaGo 创新的地方。

作者: Wush978 (拒看低质媒体) 2016-11-28 03:30:00

@semihumanity 我只是指出，要拿该句话论证RL=SL的问题点[email protected]/RL在Paper中的角色。

作者: mom213 (mom213) 2016-11-28 03:35:00

L大一开始说得也没错围棋ＡＩ不像computer vision的问题例如释出ＦＡＳＴＥＲＲ-ＣＮＮ的ＭＯＤＥＬ大家可以很轻松的基于这个模型去对影像侦测达到很不错的表现阿法狗的ＲＬ太多眉眉角角在里面能训练出一样水平的模型不是那么容易的我也觉得起跑线那句话有点不妥但后来跟别人战论文就有点不知所云......

作者: Wush978 (拒看低质媒体) 2016-11-28 03:41:00

我是觉得不离谱。这不代表重现paper简单，但是当别人把做法的核心都放出来后，要达到接近的高度，已经比无中生有还要容易的多了。毕竟已经有前人走在前面，并且达到高度。像我自己在做研究时，多的是方法难做，也不清楚做出来是不是真的能够比现有的好... 痛苦阿

作者: ztdxqa (ztdxqa) 2016-11-28 04:06:00

不知道以后alphago会不会opensourceXD

作者: aaaba (小强) 2016-11-28 09:42:00

wush大真的有说到相关研究人员的难处，调整模型的时候，哪怕是多知道一个参数的起始值该怎么设，就足够省下N倍的时间。当然一般研究生是无法靠论文重现alphaGo的，我原始推文是在说腾讯为何不需要刘知青，所以所谓起跑线，是对腾讯这种公司而言，请勿放大解释，以为有论文就有alphaGo。扭曲他人言论这种不入流的事，在我多次澄清后，希望别再发生

作者: HeterCompute (异质运算) 2016-11-28 10:38:00

推大神们出来说明

作者: semihumanity (沙漠之狐) 2016-11-28 13:02:00

aoeu太佛心了吧…看不懂的人自以为懂就好了啊

作者: Lordaeron (Terry) 2016-11-28 15:49:00

@semihumanity,连棋AI 都没做过的, 的确是看懂就好.

作者: ddavid (谎言接线生) 2016-11-28 15:51:00

我真的觉得不需要纠缠下去，当RL=SL时你还能说什么呢

作者: Lordaeron (Terry) 2016-11-28 15:52:00

而SL train出来的东西, 并没有保证准确,最终还是要有人来检视, 订正. 要是哪么简单, GNU GO 上的盘就够多的了, GNU Go 借fuego 的论文train 一下不就好了.

作者: ztdxqa (ztdxqa) 2016-11-28 17:29:00

看到Lord大的文我也是醉了居然会讲到需要人来订正检视

作者: semihumanity (沙漠之狐) 2016-11-28 17:34:00

他大概不知道DeepMind如何修正AlphaGO第四局的问题就我所知，Fuego不是用MCTS吗？有用deep learning？还是他说的SL不是DL里的SL？XD

作者: aaaba (小强) 2016-11-28 17:48:00

原来需要人检视啊，这就是supervise 啊! 难怪我不懂以后遇到人一定得问上一句：你知道supervise吗？

作者: AmibaGelos (Amiba Gelos) 2016-11-28 22:30:00

来朝圣sl=rl LOL

作者: jpg31415926 (圆周率π) 2016-11-29 02:39:00

这里有一批便宜的稻草人请打这支电话 ****-***-***

作者: Lordaeron (Terry) 2016-11-29 16:31:00

@semihumanity,你不知的东西,真的很多. 但你很会笑.@ztdxqa,不需要人来检视,aja的程式必然早就最强了.还整天在搞哪些pattern干嘛@aaaba,你扭曲aja讲的话这种事, 还在推文中.@semihumanity, https://arxiv.org/abs/1412.3409好笑吗?相关的讨论在computer-go.org 上都有讨论.

作者: ddavid (谎言接线生) 2016-11-29 17:33:00

最后结果人去检视跟SL的Supervised是两回事……XD

作者: Lordaeron (Terry) 2016-11-29 18:09:00

啊, 有人说是同一回事?但如果有人认为,照论文就可以产生一个一样强的程式.就真的是想太多了.

作者: semihumanity (沙漠之狐) 2016-11-29 19:31:00

为什么要一直逗我笑XD那篇论文有说Fuego有用deeplearning吗？你找错论文了，Fuego的论文不是这篇喔真的是第一次看到脸皮这么厚的人，一直伸出来要人打

作者: Lordaeron (Terry) 2016-11-29 20:22:00

@semihumanity, 你又打算不自文就出来笑了?上回还笑不够?

作者: semihumanity (沙漠之狐) 2016-11-29 22:11:00

我猜你是要说“不读论文”，但目前为止都是你看不懂论文啊！“同样是CNN的状况, ALPHAGO就大输fuego”XDD你到现在还不知道你这句话哪些地方错了？你有看懂你找的那篇论文吗？

作者: aaaba (小强) 2016-11-29 22:46:00

楼上太佛了，一直指导他，可是他比较需要的是开导

作者: kennyluck (Kenny) 2016-12-06 05:25:00

推 forb9823018 aoeu mom213 其他人的语言能力跟情商都很值得加强啊......

继续阅读

[棋讯] 第18届农心杯三国擂台赛第二阶段FAlin [闲聊] 没人在关心农心杯？einstean [新闻] 赵治勋：我感受到人工智能也有人性的一面zkow [新闻] ZEN无法与阿尔法相比柯洁最适合代表人类zkow [新闻] 赵治勋：ZEN很乖不会放胜负手zkow [Live] 围棋电王战第三局赵治勋 VS DeepZenGobonuswhoring [棋讯] 围棋协会理事长改选ctrl [新闻] 单机版DeepzenGo已现实力期待七番之魔zkow [新闻] 王元均夺得“棋王”挑战权zkow [心得] 围甲陈耀烨 VS 陈正勋有人在看吗?mathbug