更改

增强学习-入门导读

添加270字节2017年3月18日 (六) 00:22
/* 强化学习 */
== 定义 ==
强化学习(Reinforcement Learning)是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future reward)。
 
==要素 ==
 
从强化学习Agent的角度看,强化学习包含一组组件:
 
(1) 策略(Policy)是指:Agent的行为函数;
 
(2) 价值函数(Value)是指:每个状态与动作的成效如何?
 
(3) 模型(Model): Agent的环境的表示。
 
== 通用AI ==
行政员管理员
6,105
个编辑