笔记关键词检索?

在所有笔记中搜索你感兴趣的关键词!

《强化学习:原理与Python实现》 ──   强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者:肖智清 著


各类公式标记符

符号 名称 说明
O 观测(observation) 可以获得环境的观察。
A 动作(action) 根据决策对环境施加的动作。
S 状态(state) 环境的状态。
R 奖励(reward)  
t 时间  
St t时刻的状态  
Ot t时刻的观察  
At t时刻的动作  
Rt t时刻的奖励  
S 状态空间(state space) StS
O 观察空间(observation space) OtO
A 动作集合 AtA
R 奖励空间(reward space) RtR
T 步数 到达终止状态的步数
Gt t时刻的回报 未来奖励的和
P 状态转移概率  
p(s',r|s,a) 动力(dynamics) Markov决策过程的动力
p(s'|s,a)   状态转移概率
r(s,a)   “状态-动作”的期望奖励
r(s,a,s')   “状态-动作-下一状态”的期望奖励
π(a|s) 策略(policy) 从状态到动作的转移概率
π* 最优策略(optimal policy)  
γ 折扣(discount) γ∈[0,1]
vπ(s) 状态价值函数(state value function) 从状态s开始采用策略π的期望回报。
qπ(s,a) 动作价值函数(action value function) 在状态s采取动作a后,采用策略π的预期回报。
v*(s) 最优状态价值函数(optimal state value function)  
q*(s,a) 最优动作价值函数(optimal action value function)  

 

评论 (0)

发布评论

你的邮箱地址不会被公开。请输入所有带 * 的信息。