如题,我的一个任务的一个episode超过了3000步,直接训练是难度比较大的。我通过对环境模型采样时间的增加这种方式来增加了训练速度,把一个episode的步长降低到了500步,训练相对比较容易。但是会带来最终训练的智能体控制精确程度降低的问题。我现在想把500步重新恢复到3000步,也就是意味着我需要把采样时间中缺失的那部分给弥补上,请问有什么比较好的办法? 我尝试用500步训练好的智能体作为一个初始点,放到3000步的环境中继续训练,但是发现训练的效果很差,reward一直在降低