强化学习中动作对环境或状态一定要有影响吗？

环境或状态可不可以是随机变量，不随着采取的动作的不同而发生改变？例如在计算卸载场景中，状态是信道质量（随机变化），动作是卸载方式（本地计算或卸载至服务器），动作并不会影响状态，这种情况是否适用于强化学习？

Sputnik 您可以查看Dueling Q-learning并与Q-learning比较一下，相信会有所收获。

你这状态包含的信息太少了，状态信息不够的话，会很难收敛。

我最近也在处理这个问题，请问楼主解决了吗

Document