== 定义 ==
强化学习(Reinforcement Learning)是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future reward)。
==要素 ==
从强化学习Agent的角度看,强化学习包含一组组件:
(1) 策略(Policy)是指:Agent的行为函数;
(2) 价值函数(Value)是指:每个状态与动作的成效如何?
(3) 模型(Model): Agent的环境的表示。
== 通用AI ==