在尝试复现ManiSkill2-Learn的工作
仿真环境使用的是robosuite的Stack和自定义的PickPlace任务,算法选择的是PPO和DAPG(带demo的PPO)
发现可以很容易训练出pick(夹爪抓到方块A并抬升一定高度)任务,但是place(抓住方块A的情况下,再把方块A放到指定位置)一直训练失败,使用demo辅助也没有效果。
eval过程发现,不管环境怎么reset,目标位置变化了,policy生成的轨迹都是一样的。
刚入门强化学习,还不太熟悉debug思路,请问有人遇到类似的情况 或者 知道怎么解决吗
[upl-file uuid=162946b9-1457-4fb0-b835-5b76ff744eee size=1MB]jimuplacedemomask-50k.mp4[/upl-file
]