之前看论文,别人写的无人机还有水下机器人5自由度或者6自由度控制,输入传感器信息,直接输出推进器控制量。课时我复现的时候发现,根本训不出来合适的推进器控制量。前期一直用的DDPG,因为有个论文上就用的这个,实在不行换的PPO和A3C,目前还没啥好结果。但是用双足机器人测试算法,算法是可行的。
请问强化学习做这个真的可以吗
强化学习做5自由度的连续动作控制可行吗
叶天天
别说5个自由度,就是50个都可以, 这是问题复杂度,不是范式问题
具体可以参考这个: PPO动作网络输出问题 http://deeprlhub.com/d/498-ppo/4
13 天 后
一开始就不该DDPG,用DDPG做很容易不收敛