※ [本文转录自 GO 看板 #1Q9-Ito- ]
作者: HeterCompute (异质运算) 看板: GO
标题: [情报] AlphaZero战胜将棋与西洋棋最强软件
时间: Wed Dec 6 20:38:11 2017
https://arxiv.org/pdf/1712.01815.pdf
这次论文的标题是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
从零学棋,
使用相似的神经网络架构,
一样没有使用任何人类知识,
4小时打败西洋棋最强软件Stockfish,
2小时打败将棋最强软件Elmo,
34小时打败围棋AlphaGoZero 20blocks 3天版本,
(围棋其实有些争议,因为他这次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒传统的alpha beta search,
通用于完全讯息游戏,
又一伟大的突破。