- 1:随机选取一个状态S开始游戏
- 2:直到游戏终或者行动步数到达最大时,将获得的未来奖励(以目前表以及游戏每个状态本身的反馈奖励获得)。
- 3:重复2步骤N次,所获得奖励的平均值为目前此状态S的新的未来奖励值(注意,可以使用目前平均值为新的值,直接覆盖旧的值。也可以新值与旧值加权求合)。对于(s,a)的未来奖励同理。
- 4:重复1步骤,但要求每个状态s都能够被选到。
很明显这要的时间相当多,所以这也应该是没人用他写代码的原因吧。
参考资料: https://www.jianshu.com/p/142072151161
评论 (0)