笔记关键词检索?

在所有笔记中搜索你感兴趣的关键词!

《强化学习:原理与Python实现》 ──   强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者:肖智清 著


算法分类

1. 理解

不理解环境(Model-Free RL)

1.机器人不懂得环境是什么样子,它会通过自己在环境中不断试错,以获得行为上的改变。
算法:Q Learning、Sarsa、Policy Gradients

理解环境(Model-Based RL)

1.机器人会通过先验的只是来先理解这个真实世界是怎么样子的,然后用一个模型来模拟现实世界的反馈,这样它就可以在它自己虚拟的世界中玩耍了。
2.与modle-free中的玩耍方式一样,但model-base有两个世界,不仅能在现实世界中玩耍,也能在自己虚拟的世界中玩耍。
算法:Q Learning、Sarsa、Policy Gradients

 

2. 基于

基于概率(Policy-Based RL)

基于价值的决策部分为铁定,毫不留情, 就选价值最高的。
算法:Policy Gradients、Actor-Critice

基于价值(Value-Based RL)

基于概率的,即使某个动作的概率最高,但是还是不一定会选到他。
算法:Q Learning、Sarsa、Actor-Critice

 

3. 更新

回合更新(Monte-Carlo update)

每个回合结束后更新
算法:基础版Policy Gradients、Monte-Carlo Learning

单步更新(Temporal-Difference update)

每步进行更新
算法:Q Learning、Sarsa、升级版Policy Gradients

 

4. 在线

在线学习

指我必须本人在场, 并且一定是本人边玩边学习。
算法:Sarsa、Sarsa lambda

离线学习

是你可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则。
算法:Q learning、Deep Q Network

参考资料: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/

评论 (0)

发布评论

你的邮箱地址不会被公开。请输入所有带 * 的信息。