在dqn,ddqn算法中,我们要求知道当前状态s、下一状态snext,才能计算q估计值和q目标值,进而对q网络进行训练。如果末端状态是特异的,有意义的,而且它不存在与之对应的“下一状态”,我们要如何有效地利用它,从中学习到有效信息呢?