深度强化学习如何从一条episode的末端状态学习有效信息

在dqn，ddqn算法中，我们要求知道当前状态s、下一状态snext，才能计算q估计值和q目标值，进而对q网络进行训练。如果末端状态是特异的，有意义的，而且它不存在与之对应的“下一状态”，我们要如何有效地利用它，从中学习到有效信息呢？

Document