PPO训练问题：eval阶段不管目标位置怎么变化，运动轨迹都不变

House024

在尝试复现ManiSkill2-Learn的工作

仿真环境使用的是robosuite的Stack和自定义的PickPlace任务，算法选择的是PPO和DAPG（带demo的PPO）
发现可以很容易训练出pick（夹爪抓到方块A并抬升一定高度）任务，但是place（抓住方块A的情况下，再把方块A放到指定位置）一直训练失败，使用demo辅助也没有效果。

eval过程发现，不管环境怎么reset，目标位置变化了，policy生成的轨迹都是一样的。

刚入门强化学习，还不太熟悉debug思路，请问有人遇到类似的情况或者知道怎么解决吗

[upl-file uuid=162946b9-1457-4fb0-b835-5b76ff744eee size=1MB]jimuplacedemomask-50k.mp4[/upl-file

jimuplacedemomask-1m.mp4

1MB

]

Document