环境任务:
智能体躲避障碍物,并到达目标区域,到达目标区域和碰撞障碍物都会给一个很大的正负奖励;智能体靠近目标点会获得小的正奖励,靠近障碍物会获得小的负奖励
状态空间:智能体自身速度、角度信息、与目标区域的欧式距离、方位角、三轴距离;与障碍物的欧氏距离方位角、三轴距离
动作空间:3
[upl-image-preview url=https://www.deeprlhub.com/assets/files/2025-08-18/1755501427-131119-8b4c7b5cb12096552a2b853572c6f05c.png








]
这是奖励函数曲
