有个问题希望大佬们解答一下,就是我用PPO算法训练好了一个模型,但是其效果并不是特别理想,希望这个智能体有更好的探索能力,找到更好的解,我应该如何继续操作呢?
目前知道的方法有如下几个(从https://zhuanlan.zhihu.com/p/188714833 整理得)
1.改变ppo_loss中熵的系数(应该是改完参数从0重新训练?还是接着之前训练好的模型训练?)
2.在动作输出层加上噪声再采样动作。
3.改变环境反馈的reward函数,鼓励智能体进行探索操作。其系数随时间逐渐减小,在训练后期作用逐渐变弱。
4.对状态进行检验,遇到一个新的状态就增加一个新的即时reward。
5.群里的老哥给了两篇论文:
5.1What Matters In On-Policy Reinforcement Learning?A Large-Scale Empirical Study
5.2Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO