目前想用强化学习学一个12维动作空间的智能体,但是由于动作空间过大,在初始搜索中总是采取一两次动作就失败了。
我记得之前有篇文章是考虑灵活机械臂,好像七维就已经挺难以实现了,现在动作空间十二维不像机械臂那种要求比较高,是动作增减量形式实现的,但是搜索一直是个难以解决的点,请问大家有什么建议吗
目前PPO,TD3和SAC都试了,都没有太好的效果
N(10000)步之前使用随机sample动作,先存一批sras'到replay buffer里,期间不断更新AC。
N(10000)步之后再用Actor选择的动作。再更新AC.