AlphaGo原理浅析
AlphaGo
论文:
AlphaGo:《Mastering the game of Go with deep neural networks and tree search》
核心部件:
- 监督学习的策略网络(SL policy network)
13layers CNN network
输入:当前state
输出:所有可能action的概率分布
更新策略:
- 速度快但准确率不如SL的策略网络(fast rollout policy network)
linear softmax of small pattern features with weights
- 强化学习的策略网络(RL policy)
网络结构与SL相同,所有参数初始化为与SL参数相同,即在SL的基础上利用policy gradient reinforcement learning再进行训练。
其中,
- 价值评估网络(value network)
评估在状态s下采取策略p
理想状态下,我们可以有一个最优的value function
网络目标是最小化估计值
骨架:
MCTS(Monte Carlo Tree Search)
Selection:
每条边
选择action.其中,
Expansion&Evaluation:
经过L步之后到达某一叶子节点
Backup:
结束仿真之后,所有被访问过的边的action values和visit counts将被更新。