在SAC和TD3这类连续型动作空间对于不符合约束的动作如何处理,在奖励值添加罚函数的方法经常会导致算法无法稳定收敛,有没有其他方法?
wzm 请问你是在某个状态下,某些连续动作不可选是吗
使用tanh函数,将网络输出值映射到0至1,再映射到动作空间
surtr 他说的不一定是框约束
surtr -1,1
选择动作与环境交互的时候mask掉,避免可行动作降为0可以在分布sample前加一个最小值。
请问您的问题解决了吗?