许多决策问题自然表现出继承自底层环境特征的明显结构。例如,在马尔可夫决策过程模型中,两个不同的状态可以具有内在相关的语义或编码类似的物理状态配置。这通常意味着状态之间的局部相关过渡动力学。为了在这样的环境中完成某项任务,操作智能体通常需要执行一系列时间和空间上相关的动作。尽管存在各种方法来捕获连续状态动作域中的这些相关性,但缺少离散环境的原则性解决方案。在这项工作中,我们提出了一个基于Pólya Gamma增强的贝叶斯学习框架,在这种情况下可以进行类似的推理。我们演示了一些常见决策相关问题的框架,如模仿学习、子目标提取、系统识别和贝叶斯强化学习。通过对这些问题的潜在相关性结构进行显式建模,与相关性不可知模型相比,所提出的方法产生了更好的预测性能,即使是在大小较小数量级的数据集上进行训练。
相关关系在决策的许多方面自然产生。造成这种现象的原因是决策问题往往表现出明显的结构,这在很大程度上影响了代理人的策略。相关性的例子甚至可以在无状态决策问题中找到,例如多武装匪徒,其中不同武器的奖励机制中的突出模式可以转化为运营主体的相关行动选择[7,9]。然而,这些统计关系在上下文强盗的情况下变得更加明显,其中有效的决策策略不仅表现出时间相关性,而且还考虑了每个时间点的状态上下文,引入了第二个相关性来源[12]。在更一般的决策模型中,如马尔可夫决策过程(MDP),代理可以通过其行为选择直接影响环境的状态。由这些动作引起的影响通常在过程的不同状态之间共享共同模式,例如,因为这些状态具有固有的相关语义或编码底层系统的相似物理状态配置。这一一般原理的例子在所有学科中无所不在,从机器人学到网络应用,从类似的致动器输出导致机器人关节类似状态的类似运动学响应,到特定队列的服务影响周围网络状态(第4.3.3节)。常见的后果是,环境的结构通常反映在操作主体的决策中,操作主体需要执行一系列时间和空间上相关的动作才能完成某项任务。当两个或多个代理在同一环境中相互作用并需要协调它们的行为时,这一点尤其正确[2]。关注理性行为,相关性甚至可以在非结构化领域中表现出来,尽管在决策过程的更高抽象层次。这是因为理性本身意味着存在一个由代理人优化的潜在目标,该目标代表代理人的意图并激励其选择一种行动而不是另一种行动。通常,这些目标至少会持续很短一段时间,从而导致连续行动选择之间的依赖性(第4.2节)。在本文中,我们提出了一个学习框架,它提供了一种直接的方法来建模有限决策问题中的这种相关性,即涉及具有离散状态和动作空间的系统。我们的框架的一个关键特征是,它允许在流程的任何级别捕获相关性,即在系统环境中,在有意的级别,或直接在执行的动作的级别。我们在分层贝叶斯模型中对底层结构进行编码,为此我们导出了一种基于Pólya Gamma增强的可处理变分推理方法,该方法允许对学习问题进行完全概率处理。对常见基准问题和排队网络仿真的结果证明了该框架的优势。