AlphaGo Zero原理浅析
AlphaGo Zero
论文:《Mastering the game of Go without human knowledge》
AlphaGo与AlphaGo Zero主要有以下几点不同:
- AlphaGo中用了3个policy network,AlphaGo Zero只用了一个reinforcement learning network
- AlphaGo Zero将policy network,value network合并
- AlphaGo Zero中没有Monte Carlo rollout
- AlphaGo Zero的RL network用了残差卷积网络
Reinforcement Learning Network
在AlphaGo Zero中只用了一个network,同时输出了action probability和value.输入是当前状态,即将当前棋盘图片输入。network用的是残差卷积网络,加了batch normalization和非线性**函数。
骨架
AlphaGo Zero的骨架同样是MCTS.
树上每一个节点表示状态s,边表示(s,a),每条边存储
Select
这一步与AlphaGo一样,从根节点
Expand and evaluate
叶子节点
Backup
对叶子节点进行expand之后,接下来要对之前经历过的节点信息进行更新。
Training
从状态