强化学习(Reinforcement Learning)是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future reward)。
== 与通用AI的关系 通用AI ==
深度强化学习(Deep Reinforcement Learning, Deep RL)就是把强化学习RL和深度学习DL的结合起来。用强化学习定义目标,用深度学习给出相应的机制,如Q学习等技术,以实现通用人工智能(General Artificial Intelligence)。