笔记关键词检索?

在所有笔记中搜索你感兴趣的关键词!

《强化学习：原理与Python实现》 ── 强化学习一线研发人员撰写，涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者：肖智清著

蒙特卡洛（MC）

2020-05-05 13:08 算法评论 0

1：随机选取一个状态S开始游戏
2：直到游戏终或者行动步数到达最大时，将获得的未来奖励（以目前表以及游戏每个状态本身的反馈奖励获得）。
3：重复2步骤N次，所获得奖励的平均值为目前此状态S的新的未来奖励值（注意，可以使用目前平均值为新的值，直接覆盖旧的值。也可以新值与旧值加权求合）。对于（s，a）的未来奖励同理。
4：重复1步骤，但要求每个状态s都能够被选到。
很明显这要的时间相当多，所以这也应该是没人用他写代码的原因吧。

参考资料： https://www.jianshu.com/p/142072151161

评论 (0)

发布评论