《强化学习：原理与Python实现》 - 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

各类公式标记符

2020-12-26 22:03 定义评论 0 更多详情

符号
名称
说明

O
观测（observation）
可以获得环境的观察。

A
动作（action）
根据决策对环境施加的动作。

S
状态（state）
环境的状态。

R
奖励（reward）

t
时间

St
t时刻的状态

Ot
t时刻的观察

At
t时刻的动作

Rt
t时刻的奖励

S
状态空间（state space）
St∈S

O
观察空间（observation space）
Ot∈O

A
动作集合
At∈A

R
奖励空间（reward space）
Rt∈R

T
步数
到达终止状态的步数

Gt
t时刻的回报
未来奖励的和

P
状态转移概率

p(s',r|s,a)
动力（dynamics）
Markov决策过程的动力

p(s'|s,a)

状态转移概率

r(s,a)

“状态-动作”的期望奖励

r(s,a,s')

“状态-动作-下一状态”的期望奖励

π(a|s)
策略（policy）
从状态到动作的转移概率

π*
最优策略（optimal policy）

γ
折扣（discount）
γ∈[0,1]

vπ(s)
状态价值函数（state value function）
从状态s开始采用策略π的期望回报。

qπ(s,a)
动作价值函数（action value function）
在状态s采取动作a后，采用策略π的预期回报。

v*(s)
最优状态价值函数（optimal state value function）

q*(s,a)
最优动作价值函数（optimal action value function）

............

环境

2020-12-26 22:01 概念评论 0 更多详情

环境（environment）是强化系统中除智能体以外的所有事务，它是智能体交互的对象。

............

智能体

2020-12-26 21:57 概念评论 0 更多详情

智能体（agent）是强化学习系统的中决策者和学习者，它可以做出决策和接受奖励信号。

............

算法分类

2020-05-07 12:46 概念评论 0 更多详情

1. 理解
不理解环境（Model-Free RL）
1.机器人不懂得环境是什么样子，它会通过自己在环境中不断试错，以获得行为上的改变。

算法：Q Learning、Sarsa、Policy Gradients
理解环境（Model-Based RL）
1.机器人会通过先验的只是来先理解这个真实世界是怎么样子的，然后用一个模型来模拟现实世界的反馈，这样它就可以在它自己虚拟的世界中玩耍了。

2.与modle-free中的玩耍方式一样，但model-base有两个世界，不仅能在现实世界中玩耍，也能在自己虚拟的世界中玩耍。

算法：Q Learning、Sarsa、Policy Gradients

2. 基于
基于概率（Policy-Based RL）
基于价值的决策部分为铁定，毫不留情, 就选价值最高的。

算法：Policy Gradients、Actor-Critice
基于价值（Value-Based RL）
基于概率的，即使某个动作的概率最高，但是还是不一定会选到他。

算法：Q Learning、Sarsa、Actor-Critice

3. 更新
回合更新（Monte-Carlo update）
每个回合结束后更新

算法：基础版Policy Gradients、Monte-Carlo Learning
单步更新（Temporal-Difference update）
每步进行更新

算法：Q Learning、Sarsa、升级版Policy Gradients

4. 在线
在线学习
指我必须本人在场, 并且一定是本人边玩边学习。

算法：Sarsa、Sarsa lambda
离线学习
是你可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则。

算法：Q learning、Deep Q Network

............

时间差分法（TD）

2020-05-05 13:28 算法评论 0 更多详情

这个能做到每一步都更新一次，同时可以异步跟新（不用每次都要求所有状态更新一次来轮转，选到谁就更新谁，所以也要求每个状态都能够选到）。一般说的TD都指的是TD(0) （ps：为啥不叫TD(1)啊），即每次只往后看一步，这是什么意思呢，看了接下来的流程估计就懂了。（使用的都是（s，a）值）

1：随机选取一个状态S开始游戏
2：此s状态下选取a（根据贪婪或者 ε-贪婪），并在动作a的状态下获得s‘，即下一状态。
3：使用s状态下的反馈奖励以及s’的未来奖励更新s的未来奖励。（一般这两者与目前s状态的未来奖励加权求和）（ps：这里就是sarsar与Qlearning的区别，s'是指s中通过策略抵达的下一状态，但此状态下也有许多的（s，a）值，该以哪个来更新呢？Qlearning中，选取最大的（s，a）为更新值。sarsar中，对所有（s，a）值求平均，作为更新值。这也是所谓的Qlearning高风险高收益，sarsar比较保守的原因。）
4：重复1步骤，(但要求每个状态s都能够被选到。)

作者：无业大学生

链接：https://www.jianshu.com/p/142072151161

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

............

蒙特卡洛（MC）

2020-05-05 13:08 算法评论 0 更多详情

1：随机选取一个状态S开始游戏
2：直到游戏终或者行动步数到达最大时，将获得的未来奖励（以目前表以及游戏每个状态本身的反馈奖励获得）。
3：重复2步骤N次，所获得奖励的平均值为目前此状态S的新的未来奖励值（注意，可以使用目前平均值为新的值，直接覆盖旧的值。也可以新值与旧值加权求合）。对于（s，a）的未来奖励同理。
4：重复1步骤，但要求每个状态s都能够被选到。

很明显这要的时间相当多，所以这也应该是没人用他写代码的原因吧。

............

笔记关键词检索?

《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

各类公式标记符

环境

智能体

算法分类

时间差分法（TD）

蒙特卡洛（MC）