更改
= 强化学习 =
== 定义 强化学习定义 ==
强化学习(Reinforcement Learning)是一种通用的决策框架( decision-making framework)。Agent代理具有采取动作(action)的能力(capacity),每次动作都会影响Agent的未来状态(State),返回一个标量的奖赏信号(reward signal)来量化表示成功与否(success)。强化学习算法的目标(Goal)就是如何采取动作(action)最大化未来的奖赏(future reward)。
==要素 强化学习要素 ==
从强化学习Agent的角度看,强化学习包含一组组件:
用强化学习定义目标,用深度学习给出相应的机制,如Q学习等技术,以实现通用人工智能(Artificial General Intelligence, AGI)。
= 研究 强化学习应用 =
== 计算机围棋与AlphaGo 计算机围棋与阿尔法围棋 ==
===多臂赌博机===
* 多臂赌博机(mutiarmed bandit problem)