- 给定当前局面,估计是白胜还是黑胜
- 速度 1/1000
- 给定当前局面,预测/采样下一步的走棋
- 整合前三个部分形成体系
-
策略网络(Policy Network)
- 预测走子(预测1-3步)
- 窄网络(192)
- 大局观
-
快速走子(Fast rollout)
- CPU 在走棋网络返回前就开始搜索
- 目标:评估盘面
-
方法
- 局部特征匹配(local pattern matching)
- 线性回归(logistic regression)
- 类似于广告竞价排名算法
-
估值网络(Value Network)
- 与「快速走子 」互补来估算盘面
- 利用监督学习保证走子多样性
- 利用增强学习估算胜负的正确性
- 利用深度卷积网络分解问题的能力
-
蒙特卡罗树搜索(MCTS)
- 选择
- 扩展
- 评估/仿真
- 反向传播,提取数据