更改

增强学习-入门导读

添加82字节2017年1月14日 (六) 04:47
/* AlphaGo计算机围棋 */
:Bandit based monte-carlo planning, ecml 2006.
 
:Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search, CG 2006.
:Combining Online and Offline Knowledge in UCT, ICML 2007.
行政员管理员
6,105
个编辑