《强化学习:原理与Python实现》 ── 强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现
作者:肖智清 著
在所有笔记中搜索你感兴趣的关键词!
作者:肖智清 著
这个能做到每一步都更新一次,同时可以异步跟新(不用每次都要求所有状态更新一次来轮转,选到谁就更新谁,所以也要求每个状态都能够选到)。一般说的TD都指的是TD(0) (ps:为啥不叫TD(1)啊),即每次只往后看一步,这是什么意思呢,看了接下来的流程估计就懂了。(使用的都是(s,a)值)
作者:无业大学生
链接:https://www.jianshu.com/p/142072151161
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
评论 (0)