符号
名称
说明
O
观测(observation)
可以获得环境的观察。
A
动作(action)
根据决策对环境施加的动作。
S
状态(state)
环境的状态。
R
奖励(reward)
t
时间
St
t时刻的状态
Ot
t时刻的观察
At
t时刻的动作
Rt
t时刻的奖励
S
状态空间(state space)
St∈S
O
观察空间(observation space)
Ot∈O
A
动作集合
At∈A
R
奖励空间(reward space)
Rt∈R
T
步数
到达终止状态的步数
Gt
t时刻的回报
未来奖励的和
P
状态转移概率
p(s',r|s,a)
动力(dynamics)
Markov决策过程的动力
p(s'|s,a)
状态转移概率
r(s,a)
“状态-动作”的期望奖励
r(s,a,s')
“状态-动作-下一状态”的期望奖励
π(a|s)
策略(policy)
从状态到动作的转移概率
π*
最优策略(optimal policy)
γ
折扣(discount)
γ∈[0,1]
vπ(s)
状态价值函数(state value function)
从状态s开始采用策略π的期望回报。
qπ(s,a)
动作价值函数(action value function)
在状态s采取动作a后,采用策略π的预期回报。
v*(s)
最优状态价值函数(optimal state value function)
q*(s,a)
最优动作价值函数(optimal action value function)