WwzmRL 02021年6月29日发布 #1 2021年6月29日星期二 01点36分 在SAC和TD3这类连续型动作空间对于不符合约束的动作如何处理,在奖励值添加罚函数的方法经常会导致算法无法稳定收敛,有没有其他方法?