《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者：肖智清著

环境

2020-12-26 22:01 概念评论 0 更多详情

环境（environment）是强化系统中除智能体以外的所有事务，它是智能体交互的对象。

............

智能体

2020-12-26 21:57 概念评论 0 更多详情

智能体（agent）是强化学习系统的中决策者和学习者，它可以做出决策和接受奖励信号。

............

1. 理解
不理解环境（Model-Free RL）
1.机器人不懂得环境是什么样子，它会通过自己在环境中不断试错，以获得行为上的改变。

算法：Q Learning、Sarsa、Policy Gradients
理解环境（Model-Based RL）
1.机器人会通过先验的只是来先理解这个真实世界是怎么样子的，然后用一个模型来模拟现实世界的反馈，这样它就可以在它自己虚拟的世界中玩耍了。

2.与modle-free中的玩耍方式一样，但model-base有两个世界，不仅能在现实世界中玩耍，也能在自己虚拟的世界中玩耍。

算法：Q Learning、Sarsa、Policy Gradients

2. 基于
基于概率（Policy-Based RL）
基于价值的决策部分为铁定，毫不留情, 就选价值最高的。

算法：Policy Gradients、Actor-Critice
基于价值（Value-Based RL）
基于概率的，即使某个动作的概率最高，但是还是不一定会选到他。

算法：Q Learning、Sarsa、Actor-Critice

3. 更新
回合更新（Monte-Carlo update）
每个回合结束后更新

算法：基础版Policy Gradients、Monte-Carlo Learning
单步更新（Temporal-Difference update）
每步进行更新

算法：Q Learning、Sarsa、升级版Policy Gradients

4. 在线
在线学习
指我必须本人在场, 并且一定是本人边玩边学习。

算法：Sarsa、Sarsa lambda
离线学习
是你可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则。

算法：Q learning、Deep Q Network

............

笔记关键词检索?

《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

知识点类型：【概念】

环境

智能体

算法分类