《强化学习:原理与Python实现》 ── 强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现
作者:肖智清 著
在所有笔记中搜索你感兴趣的关键词!
作者:肖智清 著
符号 | 名称 | 说明 |
---|---|---|
O | 观测(observation) | 可以获得环境的观察。 |
A | 动作(action) | 根据决策对环境施加的动作。 |
S | 状态(state) | 环境的状态。 |
R | 奖励(reward) | |
t | 时间 | |
St | t时刻的状态 | |
Ot | t时刻的观察 | |
At | t时刻的动作 | |
Rt | t时刻的奖励 | |
S | 状态空间(state space) | St∈S |
O | 观察空间(observation space) | Ot∈O |
A | 动作集合 | At∈A |
R | 奖励空间(reward space) | Rt∈R |
T | 步数 | 到达终止状态的步数 |
Gt | t时刻的回报 | 未来奖励的和 |
P | 状态转移概率 | |
p(s',r|s,a) | 动力(dynamics) | Markov决策过程的动力 |
p(s'|s,a) | 状态转移概率 | |
r(s,a) | “状态-动作”的期望奖励 | |
r(s,a,s') | “状态-动作-下一状态”的期望奖励 | |
π(a|s) | 策略(policy) | 从状态到动作的转移概率 |
π* | 最优策略(optimal policy) | |
γ | 折扣(discount) | γ∈[0,1] |
vπ(s) | 状态价值函数(state value function) | 从状态s开始采用策略π的期望回报。 |
qπ(s,a) | 动作价值函数(action value function) | 在状态s采取动作a后,采用策略π的预期回报。 |
v*(s) | 最优状态价值函数(optimal state value function) | |
q*(s,a) | 最优动作价值函数(optimal action value function) |
评论 (0)