更改

增强学习-入门导读

删除3字节2017年3月18日 (六) 00:32
/* 多臂赌博机 */
赌徒如果专注于已获得收益的赌博机,至少可以保持一定的收益。如果去尝试更多的先前未测试的赌博机,有可能出现尝试失败的情况,但也有可能会发现具有更大收益的赌博机。
UCB方法是针对多臂赌博机问题的一种解法,力图在在探索(在未知的赌博机)和遵从(现有经验)之间找到平衡。UCB 方法全称是(“Upper Confidence Bounds”), 即置信区间上界方法。即上置信边界方法。
'''UCB算法最早由以下论文提出。'''
行政员管理员
6,105
个编辑