* 多臂赌博机(mutiarmed bandit problem)
一个赌徒面前有一系列老虎机(或赌博机),每个赌博机在投入硬币后,返回的回报是不同的。赌徒面临的问题是如何最大化自己的收益。 当赌徒尝试了一系列赌博机后,会获得一些统计上的收益。但是,赌徒并不知道赌博机背后的真实收益分布。在获得已有的收益后,赌徒遇到的策略问题是:是继续专注于当前获得的收益呢,还是去尝试更多的赌博机? 赌徒如果专注于已获得收益的赌博机,至少可以保持一定的收益。如果去尝试更多的先前未测试的赌博机,有可能出现尝试失败的情况,但也有可能会发现具有更大收益的赌博机。 UCB方法是针对多臂赌博机问题的一种解法,力图在在探索(在未知的赌博机)和遵从(现有经验)之间找到平衡。UCB 方法全称是(“Upper Confidence Bounds”), 即置信区间上界方法。 UCB算法最早由以下论文提出。 #Peter Auer, Nicolo Cesa-Bianchi, and Paul Fischer. "Finite-time analysis of the multiarmed bandit problem." Machine learning 47, no. 2-3: 235-256, 2002. PUCT算法由以下论文研究提出。#Christopher D. Rosin, Multi-armed bandits with episode context, AMAI Annals of Mathematics and Artificial Intelligence, March 2011, Volume 61, Issue 3, pp 203–230 2011. #Wang, Yizao, Jean-Yves Audibert, and Rémi Munos. "Algorithms for Infinitely Manyinfinitely many-Armed Bandits, nips armed bandits." Advances in Neural Information Processing Systems. 2009.
===蒙特卡洛树搜索===