• 问题求助
  • 萌新提问:每次训练后到达一定的step之后,reward就开始收敛?

就很疑惑为什么每次训练到大概30W次的时候就开始收敛了,每一条曲线的模型参数不一样,但是环境一样。请问这是正常情况吗?

如果还想继续训练应该怎么调整呢?

你是设置了不同的随机种子吗

  • zcy 回复了此帖

    Marco 好像没有诶 如果随机数种子不同的话,是不是不应该在相同的时间点收敛了?

    Marco 好像没有诶 如果随机数种子不同的话,是不是不应该在相同的时间点收敛了?

    说点什么吧...
    Document