最新的版本AlphaGo Zero
完全不依靠人类的数据
从零开始自我训练
https://imgur.com/It4pAnf
3天后,以局数 100:0 打败 AlphaGo(李世石版本)
21天后,达到 AlphaGo(Master/柯洁版本)的程度
40天后,成为最强版本的AlphaGo! o'_'o
https://imgur.com/1rVPHqI
以前版本的策略网络(Policy Network)和价值网络(Value Network)
合并成一个神经网络
算法的改进使系统更强大且高效
Deepmind介绍:
https://deepmind.com/blog/alphago-zero-learning-scratch/
https://www.youtube.com/watch?v=tXlM99xPQC8
https://www.youtube.com/watch?v=WXHFqTvfFSw
Nature论文:
https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html