笔记关键词检索?

在所有笔记中搜索你感兴趣的关键词!

《强化学习:原理与Python实现》 ──   强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者:肖智清 著


各类公式标记符




符号
名称
说明




O
观测(observation)
可以获得环境的观察。


A
动作(action)
根据决策对环境施加的动作。


S
状态(state)
环境的状态。


R
奖励(reward)
 


t
时间
 


St
t时刻的状态
 


Ot
t时刻的观察
 


At
t时刻的动作
 


Rt
t时刻的奖励
 


S
状态空间(state space)
St∈S


O
观察空间(observation space)
Ot∈O


A
动作集合
At∈A


R
奖励空间(reward space)
Rt∈R


T
步数
到达终止状态的步数


Gt
t时刻的回报
未来奖励的和


P
状态转移概率
 


p(s',r|s,a)
动力(dynamics)
Markov决策过程的动力


p(s'|s,a)
 
状态转移概率


r(s,a)
 
“状态-动作”的期望奖励


r(s,a,s')
 
“状态-动作-下一状态”的期望奖励


π(a|s)
策略(policy)
从状态到动作的转移概率


π*
最优策略(optimal policy)
 


γ
折扣(discount)
γ∈[0,1]


vπ(s)
状态价值函数(state value function)
从状态s开始采用策略π的期望回报。


qπ(s,a)
动作价值函数(action value function)
在状态s采取动作a后,采用策略π的预期回报。


v*(s)
最优状态价值函数(optimal state value function)
 


q*(s,a)
最优动作价值函数(optimal action value function)
 



 

............

算法分类

1. 理解
不理解环境(Model-Free RL)
1.机器人不懂得环境是什么样子,它会通过自己在环境中不断试错,以获得行为上的改变。

算法:Q Learning、Sarsa、Policy Gradients
理解环境(Model-Based RL)
1.机器人会通过先验的只是来先理解这个真实世界是怎么样子的,然后用一个模型来模拟现实世界的反馈,这样它就可以在它自己虚拟的世界中玩耍了。

2.与modle-free中的玩耍方式一样,但model-base有两个世界,不仅能在现实世界中玩耍,也能在自己虚拟的世界中玩耍。

算法:Q Learning、Sarsa、Policy Gradients
 
2. 基于
基于概率(Policy-Based RL)
基于价值的决策部分为铁定,毫不留情, 就选价值最高的。

算法:Policy Gradients、Actor-Critice
基于价值(Value-Based RL)
基于概率的,即使某个动作的概率最高,但是还是不一定会选到他。

算法:Q Learning、Sarsa、Actor-Critice
 
3. 更新
回合更新(Monte-Carlo update)
每个回合结束后更新

算法:基础版Policy Gradients、Monte-Carlo Learning
单步更新(Temporal-Difference update)
每步进行更新

算法:Q Learning、Sarsa、升级版Policy Gradients
 
4. 在线
在线学习
指我必须本人在场, 并且一定是本人边玩边学习。

算法:Sarsa、Sarsa lambda
离线学习
是你可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则。

算法:Q learning、Deep Q Network

............

时间差分法(TD)

这个能做到每一步都更新一次,同时可以异步跟新(不用每次都要求所有状态更新一次来轮转,选到谁就更新谁,所以也要求每个状态都能够选到)。一般说的TD都指的是TD(0) (ps:为啥不叫TD(1)啊),即每次只往后看一步,这是什么意思呢,看了接下来的流程估计就懂了。(使用的都是(s,a)值)

1:随机选取一个状态S开始游戏
2:此s状态下选取a(根据贪婪 或者 ε-贪婪),并在动作a的状态下获得s‘,即下一状态。
3:使用s状态下的反馈奖励以及s’的未来奖励更新s的未来奖励。(一般这两者与目前s状态的未来奖励加权求和)(ps: 这里就是sarsar与Qlearning的区别,s'是指s中通过策略抵达的下一状态,但此状态下也有许多的(s,a)值,该以哪个来更新呢?Qlearning中,选取最大的(s,a)为更新值。sarsar中,对所有(s,a)值求平均,作为更新值。这也是所谓的Qlearning高风险高收益,sarsar比较保守的原因。)
4:重复1步骤,(但要求每个状态s都能够被选到。)





作者:无业大学生

链接:https://www.jianshu.com/p/142072151161

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

............

蒙特卡洛(MC)

............