笔记关键词检索?

在所有笔记中搜索你感兴趣的关键词!

《强化学习:原理与Python实现》 ──   强化学习一线研发人员撰写,涵盖主流、实用强化学习算法与基于TensorFlow2.0的Python实现

作者:肖智清 著


蒙特卡洛(MC)

  • 1:随机选取一个状态S开始游戏
  • 2:直到游戏终或者行动步数到达最大时,将获得的未来奖励(以目前表以及游戏每个状态本身的反馈奖励获得)。
  • 3:重复2步骤N次,所获得奖励的平均值为目前此状态S的新的未来奖励值(注意,可以使用目前平均值为新的值,直接覆盖旧的值。也可以新值与旧值加权求合)。对于(s,a)的未来奖励同理。
  • 4:重复1步骤,但要求每个状态s都能够被选到。
    很明显这要的时间相当多,所以这也应该是没人用他写代码的原因吧。

参考资料: https://www.jianshu.com/p/142072151161

评论 (0)

发布评论

你的邮箱地址不会被公开。请输入所有带 * 的信息。