DDPG多目标路径规划,智能体在到达第一个目标以后,动作就直接输出边界值撞墙。多次试验发现只有部分种子能够在多次撞墙以后学会不输出边界值,但是大部分的种子依然是一直输出边界值。请问这种情况该怎么排查问题呢?
到达第一个目标以后一直撞墙,使用了事后经验回放