环境是自己写的,奖励曲线如图所示,请问出现这种情况的原因可能是什么?目前'gamma': 0.99, 'lr': 1e-4, 'batch_size': 128, 'exp_noise': 1.0, 'noise_decay': 0.998
而且loss曲线也是很快下降到0附近。有什么方法吗? :