《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者：肖智清著

这个能做到每一步都更新一次，同时可以异步跟新（不用每次都要求所有状态更新一次来轮转，选到谁就更新谁，所以也要求每个状态都能够选到）。一般说的TD都指的是TD(0) （ps：为啥不叫TD(1)啊），即每次只往后看一步，这是什么意思呢，看了接下来的流程估计就懂了。（使用的都是（s，a）值）

1：随机选取一个状态S开始游戏
2：此s状态下选取a（根据贪婪或者 ε-贪婪），并在动作a的状态下获得s‘，即下一状态。
3：使用s状态下的反馈奖励以及s’的未来奖励更新s的未来奖励。（一般这两者与目前s状态的未来奖励加权求和）（ps：这里就是sarsar与Qlearning的区别，s'是指s中通过策略抵达的下一状态，但此状态下也有许多的（s，a）值，该以哪个来更新呢？Qlearning中，选取最大的（s，a）为更新值。sarsar中，对所有（s，a）值求平均，作为更新值。这也是所谓的Qlearning高风险高收益，sarsar比较保守的原因。）
4：重复1步骤，(但要求每个状态s都能够被选到。)

作者：无业大学生

链接：https://www.jianshu.com/p/142072151161

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

............

蒙特卡洛（MC）

2020-05-05 13:08 算法评论 0 更多详情

1：随机选取一个状态S开始游戏
2：直到游戏终或者行动步数到达最大时，将获得的未来奖励（以目前表以及游戏每个状态本身的反馈奖励获得）。
3：重复2步骤N次，所获得奖励的平均值为目前此状态S的新的未来奖励值（注意，可以使用目前平均值为新的值，直接覆盖旧的值。也可以新值与旧值加权求合）。对于（s，a）的未来奖励同理。
4：重复1步骤，但要求每个状态s都能够被选到。

很明显这要的时间相当多，所以这也应该是没人用他写代码的原因吧。

............

笔记关键词检索?

《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

知识点类型：【算法】

时间差分法（TD）

蒙特卡洛（MC）