正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
PPO 训练过程中 performance 先变好 后变坏, 甚至比初始结果还坏
song_song_
有朋友遇到过类似情况吗? 附上训练图片, 纵轴越低越好
Document