正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
对于不同初始状态,最优策略是否不同?
wagh311
刚入门强化学习一周,有个问题不太明白:对于初始状态s1,假设最优策略为Π,那么按策略Π执行得到的状态值函数v(s1)应该为最大;那么对于不同的初始状态s2,最优策略仍是Π吗?还是不同的策略?恳请指点。
Document