TD3网络探索噪声问题

???

TD3网络探索噪声问题

原论文中，TD3的探索机制，是在actor输出的action上加一个方差恒定的高斯噪声，进行探索。这样的探索是不是相对不稳定？是否需要随着训练的进行，逐渐减小探索噪声的方差？

Document