正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
PPO算法中平均reward前半段收敛后,某一时刻突然恶化,这是为什么?
jinnainai
使用的baselines的PPO代码,这是因为奖励设置的不合理吗,感觉奖励设置的是ok的,还是因为状态设置的问题?,,,并且如果代码继续运行下去的话会出现nan的情况。
Document