环境比一般的路径规划大很大,格网环境大概350*350
训练早期还有点寻路的样子,后期就突然变成蜷缩在起点的状态了,奖励塑性(方向和离终点距离)也做了,除了避障没有什么惩罚项,不明白为什么他突然就不动了,loss也一直上升,不太清楚该怎么改了 ,求帮助
provokingg 其实真不如A*有效果,哈哈哈