更改 - iCenter Wiki

增强学习-入门导读

添加270字节、2017年3月18日 (六) 00:22

/* 强化学习 */

== 定义 ==

强化学习（Reinforcement Learning）是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作（action）的能力（capacity），每次动作都会影响Agent的未来状态（State），返回一个标量的奖赏信号（reward signal）来量化表示成功与否（success）。强化学习算法的目标（Goal）就是如何采取动作（action）最大化未来的奖赏（future reward）。

==要素 ==

从强化学习Agent的角度看，强化学习包含一组组件：

(1) 策略（Policy）是指：Agent的行为函数；

(2) 价值函数（Value）是指：每个状态与动作的成效如何？

(3) 模型（Model）： Agent的环境的表示。

== 通用AI ==

Zhenchen

行政员、管理员

6,105

个编辑