我暂时的理解如下:
PPO与DDPG解决连续型任务的区别:
1.从on还是off的角度讲,选择哪个可以取决于样本是否容易得到:
PPO是on-policy算法,样本利用率低,适用于样本产生快的环境
DDPG是off-policy算法,样本利用率较高,适用于样本产生慢的环境
2.从算法的推出过程看:
DDPG是结合DQN和AC的算法,没有对更新幅度进行限制
PPO是从TRPO改进出来的,其更新幅度得以保证,出现崩溃的概率较小
想问一下社区的各位大佬,我的理解是否正确,在选择哪种算法的时候还有其他的关注点吗?