Re: [讨论] 电脑弱点:中腹有打劫可能的复杂生死战?

楼主: stimim (qqaa)   2016-03-14 17:56:38
: 电脑好似还有一个问题就是落后时下出的各种大亏损无理手。当然可以理解电脑
: 的逻辑就是:这样下你不应我就赢了所以胜率很高,但这对人类是没用的。相对
: 于之前有人假设电脑落后会变更强因为要追回来,目前看起来反而是电脑落后就
: 走远了,因为它的追棋方式对人类来说是毫无意义的只会让自己越亏越多胜机越
: 渺茫。
其实如果我们假想自己是电脑,应该很容易可以理解这样的行为。
在人的世界,当我们发现自己落后时,所用的方法可能是把局面弄的更复杂,
和对手比计算力;可能是采取守势,等对手犯错等等之类的。这些的前题是,
我们知道对手也是人,人在复杂的局面容易犯错,人在慢长的棋局中很难每一
手都下的完美,可能这里亏一点,那里亏一点,最后就被追上了。
电脑呢?“他以为人的思考方式和他一样”,所以,当他发现自己落后时,代
表在他所想的到的变化中,只要对手正确的回应,他都追不回来。
那他觉得对手会犯错吗?
1. 我想到了,为什么他想不到
2. 如果他真的会下错,那在每一种情况下都应该都有可能犯错
=> 如果他每一种都有可能犯错,那我当然下他犯错后我得利最大的
所以我们在第四局会看到这些不可思议的棋。
换句话说,电脑并不知道“这一手很难,他可能想不到”这种事情,对于追回目
数的两种选择:
a) 这一手如果对手应错了我得利 1 目
b) 这一手如果对手应错了我得利 10 目
对人类来说,a 的难度可能远大于 b ,所以我们下 a ,而不去下 b 。
但是这两个选择对电脑来说却是 b > a ,
因为他觉得对手在 a b 两个情况下犯错的机率可能是差不多的。
以上是我对第四盘 87 手开始的解释
(当然他在87手之后还是有比较正常的应手,所以这也不能完美的解释他的行为)
作者: NaoGaTsu (那欧卡兹)   2016-03-14 18:04:00
推这篇,实际上八九不离十。
作者: ilw4e (可以吃吗?)   2016-03-14 18:07:00
对阿,所以才说这种机制对人类来说反而更容易维持优势
作者: profyang (prof)   2016-03-14 18:11:00
对脑不是选得利最大的吧 是选胜率最大的
作者: goldduck (哥达鸭)   2016-03-14 18:12:00
如果这样的话 那一开始就出现一堆这种棋了 但是可惜都没有
作者: profyang (prof)   2016-03-14 18:12:00
你这假设是a和b犯错率差不多 但是如果犯错率不一样呢?更何况今天这盘电脑开始起笑的时候他还没输 就自己算不清楚就开始发疯了
作者: ilw4e (可以吃吗?)   2016-03-14 18:17:00
那边人算觉得不明,也许电脑已经估自己胜率掉到很低了
作者: MicroB ( )   2016-03-14 18:20:00
就是要把她打成猪头连他妈(Aja大神)都不认得她才能逼疯AG
作者: kurc (辛拉面)   2016-03-14 18:23:00
推,观念很接近这样,因为电脑是自己和自己对练来做learning
作者: Verola (sometimes I love you)   2016-03-14 18:27:00
逻辑上很合理
作者: vencil (vencs)   2016-03-14 18:35:00
我也是这样想,所以AlphaGo落后时反而可能下的跟猪一样
作者: birdy590 (Birdy)   2016-03-14 18:36:00
这程式根本从头到尾都不知道什么叫目数
楼主: stimim (qqaa)   2016-03-14 18:38:00
他的确不知道,可是他觉得“会赢”,其实就是目数要比较多所以如果一个变化的目数追不回来,value network 的分数大概也不会太高
作者: anjackie (AN)   2016-03-14 19:11:00
所以其实alphago如果建立赛局理论的模型是否可修正bug?
作者: broodworld (john)   2016-03-14 20:01:00
要到确定输才会下怪,前几盘落后棋盘大很会追
作者: pttview (浏览者)   2016-03-14 20:30:00
如果是这样那对练时不就知道了...
作者: aaaba (小强)   2016-03-14 20:57:00
你的意思是alphaGo有“对手若应错”的概念吗?在论文哪里?

Links booklink

Contact Us: admin [ a t ] ucptt.com