在SAC和TD3这类连续型动作空间对于不符合约束的动作如何处理,在奖励值添加罚函数的方法经常会导致算法无法稳定收敛,有没有其他方法?

    6 天 后

    使用tanh函数,将网络输出值映射到0至1,再映射到动作空间

      1 个月 后

      wzm 请问你是在某个状态下,某些连续动作不可选是吗

      选择动作与环境交互的时候mask掉,避免可行动作降为0可以在分布sample前加一个最小值。

      8 天 后
      2 个月 后

      请问您的问题解决了吗?

      说点什么吧...
      Document