初步理解AlphaGo

给定当前局面，估计是白胜还是黑胜
速度 1/1000
给定当前局面，预测/采样下一步的走棋
整合前三个部分形成体系
策略网络（Policy Network）
1. 预测走子（预测1-3步）
2. 窄网络（192）
3. 大局观
快速走子（Fast rollout）
1. CPU 在走棋网络返回前就开始搜索
2. 目标：评估盘面
3. 方法
  1. 局部特征匹配（local pattern matching）
  2. 线性回归（logistic regression）
  3. 类似于广告竞价排名算法
估值网络（Value Network）
1. 与「快速走子」互补来估算盘面
2. 利用监督学习保证走子多样性
3. 利用增强学习估算胜负的正确性
4. 利用深度卷积网络分解问题的能力
蒙特卡罗树搜索（MCTS)
1. 选择
2. 扩展
3. 评估/仿真
4. 反向传播，提取数据