PPO算法中平均reward前半段收敛后，某一时刻突然恶化，这是为什么？

使用的baselines的PPO代码，这是因为奖励设置的不合理吗，感觉奖励设置的是ok的，还是因为状态设置的问题？，，，并且如果代码继续运行下去的话会出现nan的情况。

Document