其实保木提出的Bonanza Method在Machine Learning中就是
Multinomial Logistic Regression,简单来说就是做回归,
它的想法很简单,就是收集许多专家棋谱,让后自动调整程式中的参数
把程式会出的棋步调整成跟棋谱中棋士下出的棋步一样。
更具体来说,就是设计一个penalty function,
若程式下出的棋步跟棋谱愈不一致,penalty function的值就会愈大,
所以自动调整参数就是想办法最小化这个function的值,
用的方法就gradient descent。
这样自动把函数最佳化(无论是把它调到最大还最小)在自动控制、
系统模拟、机器学习、或任何工程领域中都很常见,保木专长的化工自然也不例外。
其实这方法在90年代电脑西洋棋中就出现了,叫comparison learning,
将棋之前也很多人试过,只是有很多因素要等到2006年左右才成功。
当然,函数最佳化方法很多,各有好坏,
像前文提到从自然演化得到灵感的演化式计算方法(如genetic algorithm etc.)
也是做得到,只是那些方法不保证一定会收敛,
另外激指则是用average perceptron做online learning,这方法比较在自然语言处理里常见。
※ 引述《NewYAWARA (朝霞之前奏)》之铭言:
: ※ 引述《dharma (达)》之铭言:
: : 伊藤:在将棋的领域中也是化学的研究者发现了化学的模式和将棋的模式是相同的,才有
: : 了飞跃式的进步。
: : http://koubokukei.blog128.fc2.com/blog-date-20120528.html
: : 查“将棋 化学”
: : 没有什么相关的
: : 上文说的是指什么啊
: : thank
: 因为将棋软件棋力大幅进化是从Bonanza开发出来后引爆的,
: 而开发者保木邦仁本身就是物理化学专家。
: 不过他的模式与其说是和化学相像,不如说是和生物相像吧。
: 他的方式是将六万张棋谱收集来后,
: 把棋谱当作是外在环境、盘势状况当作是生命体,
: 然后生命体会去寻找在这外在环境中,怎样的发展最能适应该环境。
: 也就是类似的盘势下,要怎么落棋会最接近成功赢棋的走法,
: 由这些棋谱为底来判断,所以和进化的观点比较像。
: 大概是像这样吧@@