== 强化学习定义 ==
强化学习(Reinforcement Learning)是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future 。 Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。 强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future reward)。
== 强化学习要素 ==
== 通用AI ==
深度强化学习(Deep Reinforcement Learning, Deep RL)就是把强化学习RL和深度学习DL的结合起来。
# Achieving Master Level Play in 9 × 9 Computer Go, AAAI 2008.
# The grand challenge of computer Go Monte Carlo tree search and extensions, CACM 2012.
# '''Mastering the game of Go with deep neural networks and tree search, Nature 2016.'''
==阿尔法围棋==
# '''Mastering the game of Go with deep neural networks and tree search, Nature 2016.'''#AlphaGo Zero#AlphaZero
==计算机游戏==