为什么路径规划平均reward不增反降，并且actor_loss振荡上升 - 深度强化学习实验室(社区)

为什么路径规划平均reward不增反降，并且actor_loss振荡上升

hahaha

环境任务：

智能体躲避障碍物，并到达目标区域，到达目标区域和碰撞障碍物都会给一个很大的正负奖励；智能体靠近目标点会获得小的正奖励，靠近障碍物会获得小的负奖励

状态空间：智能体自身速度、角度信息、与目标区域的欧式距离、方位角、三轴距离；与障碍物的欧氏距离方位角、三轴距离

动作空间：３

[upl-image-preview url=https://www.deeprlhub.com/assets/files/2025-08-18/1755501427-131119-8b4c7b5cb12096552a2b853572c6f05c.png

]

这是奖励函数曲

Document