在DRL训练的过程中,设置了随机种子,每次实验的运行结果都一样。但在其训练的过程中使用 mini-batch SGD或者优化算法进行训练时,本身不也有随机性么,因为每次更新都是从训练数据集中随机采样出batch size个训练样本计算的平均梯度。为什么实验结果还是一样的?或者说有必要利用不同的随机种子进行多次实验取平均值观察损失函数或者奖励值函数么?
Eric
建议查看这篇文章文章: DRL实验中到底需要多少个随机种子?
DeepRLearner 嗯嗯,谢谢您。