带约束的深度强化学习算法如何设置动作选择 - 深度强化学习实验室(社区)

带约束的深度强化学习算法如何设置动作选择

wzm

在SAC和TD3这类连续型动作空间对于不符合约束的动作如何处理，在奖励值添加罚函数的方法经常会导致算法无法稳定收敛，有没有其他方法？

Hardlygo

wzm 请问你是在某个状态下，某些连续动作不可选是吗

surtr

使用tanh函数，将网络输出值映射到0至1，再映射到动作空间

Wuk

surtr 他说的不一定是框约束

DokinCui

surtr -1,1

Air-legend

选择动作与环境交互的时候mask掉，避免可行动作降为0可以在分布sample前加一个最小值。

Bob

请问您的问题解决了吗？

Document