动作空间维数过大如何训练？

目前想用强化学习学一个12维动作空间的智能体，但是由于动作空间过大，在初始搜索中总是采取一两次动作就失败了。

我记得之前有篇文章是考虑灵活机械臂，好像七维就已经挺难以实现了，现在动作空间十二维不像机械臂那种要求比较高，是动作增减量形式实现的，但是搜索一直是个难以解决的点，请问大家有什么建议吗

目前PPO,TD3和SAC都试了，都没有太好的效果

N(10000)步之前使用随机sample动作，先存一批sras'到replay buffer里，期间不断更新AC。

N(10000)步之后再用Actor选择的动作。再更新AC.

Document