请问各位大佬,有人做过追捕问题吗,自己搭的gym环境跑TD3算法,一直无法收敛,reward也是,真心求助!
有佬做过追捕问题吗,自己搭建的gym环境,TD3算法一直不收敛,怀疑是算法编写问题,但是看了一些资料后没什么大的问题,感觉是环境搭建的问题?求指点,谢谢!
Lisper
根据我以前自己仿照gym写的环境经验来说,多半应该是环境问题,特别是奖励设置问题,一般TD3这些算法都是在基准环境上经过验证的,性能和稳定性都是可靠的
所以再从奖励的地方找问题吧,毕竟你看瘦不收敛也是看reward