环境或状态可不可以是随机变量,不随着采取的动作的不同而发生改变?例如在计算卸载场景中,状态是信道质量(随机变化),动作是卸载方式(本地计算或卸载至服务器),动作并不会影响状态,这种情况是否适用于强化学习?
Sputnik
Sputnik 您可以查看Dueling Q-learning并与Q-learning比较一下,相信会有所收获。