本文来源于知乎专栏,作者授权转载,仅供学习交流,原文地址见文末。
系列1: 写在前面
缘起
随着这波人工智能浪潮的兴起,强化学习(Reinforcement Learning,RL)这坛陈年老酒也借势找到了深度学习这个新瓶子,重新吸引了学术界、工业界乃至吃瓜群众的注意力。对于很多人来说,AI闯入他们视野的标志性事件不是2012年AlexNet的横空出世,而是AlphaGo击败李世石引起的轩然大波。可以这样说,深度强化学习(DRL)不仅点燃了世人对AI的热情,而随着CV方向性能瓶颈的出现,作为一个缺点多多、槽点满满的算法框架,DRL正在吸引越来越多的学者前来填坑,从各大AI顶会RL方向文章数量的逐年上升可见一斑。
算法工作者的“知行合一”
如今网上关于DRL的科普文可谓汗牛充栋,图文与公式并茂,paper与代码齐飞。我自知水平有限,无意在DRL科普界班门弄斧。另一方面我认为算法工作者不应只局限在原理层面,看懂很多公式不代表拥有动手能力;也不应满足于跑通toy tasks的demo,知其然不知其所以然,面对实际问题时可能依旧一头雾水。算法工作者的“知行合一”,需要经历从抽象算法原理到广泛动手实践再上升到统一方法论这三个必要阶段,唯有如此才算真正掌握了知识。
我将通过该系列文章,对这两年DRL落地工作中的一些感悟和心得做些粗略总结,若能对读者启发一二则善莫大焉,如有纰漏谬误也真心期待得到大家的批评指正,我深信持续的交流是进步的源泉,也是我写下这些文字的初衷。由于本文的关注点在算法落地上,因此更适合那些有一定强化学习基础的读者,对于尚未入门的新手,强烈建议首先通过其他途径熟悉RL/DRL的基本概念。
源于学术,高于学术
与相对单纯的学术工作不同,DRL落地涉及面相当广。我们的目标是在现实应用中获得实实在在的性能提升,为企业创造肉眼可见的价值,无法自由选择“较弱的baseline”自欺欺人。我们没有像Gym那样现成的虚拟环境可用,需要自己搭建模拟器,定义状态空间、动作空间和回报函数。我们还需要切实考虑算法的实用性,比如模拟器的reality gap是否足够小,对不同应用场景的泛化性如何,模型的训练时间是否可控,inference运算效率能不能跟上,对各种异常、延时和误差鲁不鲁棒等等。套用伟人的句式一言以蔽之,落地来源于学术,又高于学术。
Talk is Not Cheap
我的计划是将从拿到一个新需求到项目落地中的主要环节,分成若干篇来逐一介绍。这些文章里将很少贴公式,也基本不会有代码,所有文字将致力于对方法论的阐述,读者将会看到“so much talk”,但真心希望不要因为我捉急的文字功底而认为它们是 “cheap”的长篇大论。考虑到所涉及的话题较多,因此时间跨度可能比较大,有空的时候我尽量多写。另外由于不能涉及商业机密,必要时会采用通俗的例子加以说明。那么接下来,开始吧~
系列2: 需求分析篇
前言
弘扬中华传统美德,丑话要说在前面。任何机器学习方法都不是包治百病的灵丹妙药,它们也有各自的“舒适圈”,有时候还相当挑剔。强化学习,无论前面带不带“深度”二字,也同样有其鲜明的优势和局限性,务必要具体问题具体分析。不管公众号吹嘘得多么厉害,我们自己要摆正心态,不是所有需求都适合用DRL做,适合用DRL做的需求也未必能超越传统方法。
在我看来,算法工程师的核心能力可以总结成以下三点:
- 对各种算法本质及其能力边界的深刻理解
- 对问题内在逻辑的深入分析
- 对两者结合点的敏锐直觉
一个优秀算法工程师的高光时刻从拒绝不合理的需求开始,其他的都是后话。不经慎重评估而盲目上马的项目不仅是对资源的巨大浪费,更让每个参与者陷在深坑中痛不欲生。知道一种算法不能干什么与知道它能干什么同样重要,对DRL而言,即使在最理想的外部条件下,也有其绕不过去的七寸——泛化无能。这是DRL的基本原理决定的,任何在这一点上提出过高要求的应用都不适合用DRL解决。
DRL的过拟合天性
DRL解决的是从过去经验中学习有用知识,并用于后续决策的问题。有别于纯视觉应用,DRL不仅仅满足于识别和定位,而是要根据这些信息采取针对性的行动以获取最大长期收益。从本质上说,DRL就是一种依赖过拟合的算法,说白了就是通过暴力搜索把其中的成功经验记下来,并用以指导后续决策。别嫌露骨,别怕尴尬,岂不闻学术界某大牛的辛辣讽刺仍余音绕梁——强化学习是唯一被允许在训练集上测试的算法。由于缺乏直接监督信号用于训练,DRL还特别“费数据”,以至于需要专门的模拟器源源不断地产生数据供其挥霍。好不容易训出来的policy在训练环境用得好好的,换个环境立马歇菜。
等等,不是说好了DNN有泛化能力吗?ResNet明明能在一张没见过的图片中识别出阿猫阿狗的呀。这是因为任务层次不同,泛化的定义和要求自然也不同。视觉识别层面的泛化可以理解为深度网络学习到了通用的高层语义信息,以至于只要看到类似的像素结构就能与高层语义对应起来。这个层次的泛化能力DRL也可以有,可惜远远不够。我们前边说过,DRL是要根据识别到的信息做出决策以最大化长期收益的,具体地,DRL拟合了一个特定环境、特定reward函数和当前policy下,从特定输入状态(state)到最终收益(episode结束时)的Value函数,再反过来根据这个函数去优化policy,使其输出的action最大化该Value函数。这是一个交替更新的过程,Value函数和policy你中有我我中有你,直到抵达某种纳什均衡。假设探索足够充分,我们可以认为最终的Value函数只由环境特性和reward函数决定。
OK,整理一下DRL的逻辑链条:Value函数过拟合环境特性和reward函数,Policy又过拟合Value函数。一朝天子一朝臣,一种环境一种policy,环境换了,policy废了。在训练环境中agent看到家猫,发现喂食可以得到高回报,于是用policy记了下来,在测试环境中,家猫换成野猫,虽然识别到的还是猫,agent继续喂食,然后就被猫抓了……相信看到这里,你就能明白为什么DRL被允许在训练集上测试了,也明白为什么DRL泛化无能了,因为这个level的泛化要求太TM高了!即使是人类在缺乏相关经验的情况下也会踩坑,但人类能做到吃一堑长一智,甚至从此主动避开所有可能有危险的动物,这得益于人类的两大核心优势:高效学习(只需极少样本)和终身学习(举一反三、融会贯通),而现阶段DRL却只会低效地死记硬背,训练也是一锤子买卖,这是真正的智能对人工智能的降维碾压。
适用DRL的五大特征
于是我们产生了两个问题:1.是不是DRL就真的一点泛化能力都没有?2.这样的DRL到底有没有实用价值?关于第一个问题我建议读者去了解一些Meta-RL(元强化学习)方向的工作,利用DNN的表征能力,agent能够利用有限的环境探索不断在线学习该环境的特性和reward函数,并据此调整policy的输出使其表现出对新环境的适应能力。但目前也仅能解决一类相似任务间的泛化问题,而代价是训练难度进一步提升,数据效率进一步下降,愿景很美好,实用有点早。第二个问题才是目前我们最关注的,换个问法,到底什么样的任务适合用DRL解决呢?答曰:场景固定,目标明确,数据廉价,过程复杂,自由度高。依次解读如下:
场景固定
场景固定是指决定系统动态演化趋势的主要因素保持恒定。听起来可能有点抽象,举个例子,agent在环境中遇到一条峡谷,跳过去的过程中有30%的概率被落石击中,这里的30%就属于这类因素,无论在训练和工作的时候都不能改变。用符号表示:状态s=面对峡谷,动作a=跳过去,下一个状态s'的概率分布p(s'|s,a)是明确的,即安全着陆70%,壮烈牺牲30%,这个概率在RL中叫状态转移概率,很多paper又称其为环境的model,对于任何s,a和s',p(s'|s,a)都明确而恒定的决策过程又称为Markov Decision Process或MDP,RL的理论基础即建立在MDP之上,Value函数和policy就是通过隐式(model-free)或显式(model-based)地对环境model建模得到的。model变了,policy就废了,上边举的家猫和野猫的例子就是这个道理。另一个不满足场景固定的典型例子是DOTA更换地图,基于训练地图得到的局势演化预期在新地图里不成立了。又比如临时要求围棋棋盘里某几个位置不准落子,AlphaGo大概率是要跪的。你要是还不理解,就记住:训练环境尽可能做到与工作(测试)环境相同。
目标明确
目标明确很好理解,任务要达到何种效果清晰具体,最好可以量化。工业界的需求一般都是优化某个指标(效率、能耗、胜算等),基本满足这个条件。目标越明确,设计优质的reward函数就越容易,从而训练得到更接近预期的policy。
数据廉价
数据廉价对RL至关重要,毕竟挥霍数据是RL与生俱来的属性,没办法。我们知道视频游戏领域很容易满足这个条件,所以我们最常听说DRL在XX游戏里碾压、吊打、秒杀人类玩家。然而这个要求对牵涉到硬件的应用却相当不友好,Google可以用7台KUKA iiwa机器人(单价80万rmb体会一下)日夜不停跑上几个月训练抓取技能,其他公司怕是连8千的设备撞坏了都心疼,那就只剩下模拟器这一条路了。所谓模拟器,就是将真实场景中的各种物理模型(即上文提到的model)在软件环境中仿真,从而生成无限量的高仿数据。这里有一个reality gap的问题,即这些仿真model与真实世界的误差,如果太大则训练出的policy无法直接应用。一个逼真的模拟器也是要花功夫(钱)的,像MuJoCo这样的优秀仿真平台收费也是合情合理的。
有心的朋友已经发现,对模拟器精度的要求其实与上文的“场景固定”逻辑上是一致的,之所以分开介绍,是因为廉价还包含了另一层意思——采样速率。AlphaGo和OpenAI Five在宣传的时候动不动就说他们的agent学习了相当于人类XX万年的经验,显然没有高速模拟器是不可能做到的。总之,如果非要做硬件相关的应用,先尽最大努力做出逼真的高速模拟器吧!
过程复杂
如果说前三个特征决定了“能不能”,那么接下来两个特征决定了“值不值”。我们用DRL的目的无非是看中了其处理复杂场景的能力,人类看不透,DRL来凑。如果任务太简单,依靠规则和启发式就能解决问题了,相当于拿到了“解析解”,还用神经网络拟合个什么劲儿。这里介绍一个技巧,请熟悉业务流程的甲方人员结合Domain Knowledge,分析一下阻碍性能提升的主要瓶颈在哪里,如果对方回答是过程太复杂难以掌握规律或其他类似的答复,那就说明DRL值得一试。
自由度高
自由度高指的是选择空间大、限制少,我们人类之所以有“选择困难症”,正是因为选择太多了,这时候DRL的优势就体现出来了,通过大量探索总能拟合出不错的value函数指导policy做选择。自由度越高,DRL优势越明显,自由度越低,越有利于规则。因此在决定用DRL之前,一定要认真评估任务场景是否有足够的优化空间,千万不要拎着锤子找钉子,否则即使训出了policy,性能也不如传统算法,白忙活一场。
总结
关于需求分析就先写到这里,基本涵盖了需求评估的主要方面,如果经仔细了解后发现不满足以上五个特征,就要小心了。这时候要么直接向对方提出不可行,要么在大需求里找出符合以上要求的子任务用强化学习解决,一样可以改善总体性能,切不可盲目追求大而全。好了,万里长征走完了第一步也是最重要的一步,接下来我们就假设已经拿到了一个适合又值得用DRL解决的任务,讨论如何选择合适的算法。
系列3: 算法选择篇
前言
虽然每年RL方向的paper满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL常规武器库里的存货主要还是老三样:DQN,DDPG和A3C,它们是深度学习时代最成熟、最能体现智慧结晶的三个DRL框架,你可以在GitHub上找到无数相关代码,有OpenAI,DeepMind和Nvidia这些大公司的,也有个人爱好者的。对于DRL初学者,它们是最佳的敲门砖;对于算法研究者,它们是最厚实的“巨人肩膀”;对于算法工程师,它们是最顺手的试金石。你完全可以把三个框架都放到项目模拟器上跑一跑,看哪个效果好就用哪个。当然,这三个算法框架都有各自的特点和适用domain,结合对项目的分析,是可以提前评估最合适的算法的。
强化学习——探索和利用的平衡游戏
总体来说,强化学习是一个探索(Exploration)和利用(Exploitation)的平衡游戏,前者使agent充分遍历环境中的各种可能性,从而有机会找到最优解;后者利用学到的经验指导agent做出更合理的选择。两者之间可以说是相爱相杀的关系:
- 充分的探索才能带来有效的利用,从而使RL走在正确的道路上。对于那些难度特别高的任务,改进探索策略是性价比最高的手段,比如AlphaGo使用蒙特卡洛决策树征服了围棋,Go-Explore利用状态回访打爆了Montezuma's Revenge
- 充分的利用才能探索到更好的状态,agent往往需要掌握基本技能,才能解锁更高级的技能。就好像小孩先要学会站起来,才能学会走,然后才能学会跑。这种从易到难、循序渐进的思想在RL中也很受用,著名的Curriculum Learning就是由此而来
- 过量的探索阻碍及时的利用。如果随机探索噪声强度过高,已经学到的知识会被噪声淹没,而无法指导agent解锁更好的状态,导致RL模型的性能停滞不前
- 机械的利用误导探索的方向。如果刚刚学到一点知识就无条件利用,agent有可能被带偏,从而陷入局部最优,在错误道路上越走越远,在训练早期就扼杀了最好的可能性
强化学习的训练过程其实就是从以探索为主到以利用为主的过渡过程,训练早期通过广泛试错找准一个方向,然后沿着该方向一路试探下去直到达到最优。请牢牢记住这“两点一线”,因为这是所有RL算法的主要内容,任何RL算法都能以此为切入点进行解构,有助于不断加深对算法的理解。接下来我就结合实际经验,谈谈对三个主流DRL框架的一些浅见。
DQN
DQN是借助AlphaGo最早成名的深度强化学习算法,其核心思想是利用Bellman公式的bootstrap特性,不断迭代优化一个Q(s,a)函数,并据此在各种状态下选择action。其中Q(s,a)函数拟合的是一对状态-动作的长期收益评估,该算法没有显式的policy。DQN探索和利用的平衡靠的是一种称为ε-greedy的策略,针对最新的Q(s,a)函数和当前的输入状态s,agent做决策时以概率ε随机选择action,而以1-ε的概率选择使Q(s,a)最大的action,随着ε从大到小变化,DQN也相应地从“强探索弱利用”过渡到“弱探索强利用”。
DQN的原理使其天然地适合离散动作空间,也就是action可以穷举,比如走迷宫的agent只允许前后左右4个动作,下围棋的AlphaGo只允许19*19=361个落子位置(实际还要排除已经落子的网格点)。这是一个重要的特征,如果你手上是一个连续控制任务,action在某区间内有无数种可能,那就不适合用DQN了。当然,你也可以选择把区间离散化,这样就可以应用DQN了,也曾有paper报告这样做在某些任务中可以比连续控制取得更好的性能。
DQN属于off-policy方法,所谓off-policy是指用于计算梯度的数据不一定是用当前policy采集的。DQN使用一个叫replay buffer的FIFO结构,用于存储transition:(s,a,s',r),每次随机从buffer中拿出一个batch用于梯度计算和参数更新。Replay buffer是稳定DQN训练的重要措施,对历史数据的重复使用也提高了其数据利用率,对于那些数据比较“贵”的任务,比如Google的抓取应用(见需求分析篇),这一点非常重要,事实上Google除了replay buffer,还专门搞了个数据库,把之前存储的另一个抓取应用采集的数据拿出来做预训练,精打细算到了极致,真是比你有钱,还比你节约~
DQN的缺点挺多,有些是RL的通病,比如对超参数敏感,我在训练篇会详细介绍;另外利用Bellman公式的bootstrap特性更新Q值的方式自带bias,外加计算目标Q值时使用同一个网络评估和选择动作(见下式),DQN容易被overestimation问题困扰,导致训练稳定性较差,近些年学术界有不少工作是围绕这一点做出改进(比如Double DQN)。此外,DQN还有off-policy方法的通病,对历史数据的重复利用虽然可以提高数据效率,但有个前提条件是环境model不能发生变化,single agent任务较易满足这个条件,但multiagent场景就未必了,对任意agent而言,其他agent也是环境的一部分,而他们的学习进化会改变这个环境,从而使历史数据失效,这就是MARL领域著名的环境不稳定问题,除非replay buffer内的数据更新足够快,否则off-policy方法的性能往往不如on-policy方法。
DDPG
针对DQN无法处理连续控制任务的缺点,DDPG在DQN的基础上做了改进,引入了一个输出连续action的显式policy,与Q函数组成Actor-Critic结构,更新policy网络的梯度完全来自于Q网络,目标是最大化当前的Q函数。Q函数的更新与DQN类似,只是计算s'状态下目标值时放弃了max操作,而采用当前policy网络的输出π(a|s')。DDPG名字里的第一个D是Deterministic的缩写,意思是确定性的,这是有意与正宗Actor-Critic方法(如A2C/A3C等)区分开,后者policy输出的是action的概率分布,而DDPG输出的就是确定性的action。正因为如此,DDPG采用了独特的探索方式,即在action输出直接加上一个noise,该noise的强弱决定了探索力度,本质上相当于以当前action为中心形成了一个概率分布,每次更新都使policy向该分布中更好的方向演化,直到action达到了最优,此时对应分布内其他方向都是更差的方向,policy输出也就稳定在最优action附近了,从而实现了探索和利用的平衡。
能用于连续控制任务自然是招人喜欢的,毕竟实际控制任务的变量往往都是连续取值的,比如角度、位移、速度、加速度、电流、电压等等。学者们把DDPG用在MuJoCo上,解决了很多连续domain的任务,后来也有人把它用到真实的软体章鱼机器人上,用两只触角实现了向前运动。然而,在连续区间上找到最优的确定性action输出本身是一件非常困难的事,导致DDPG在action维度较高的复杂任务中表现不佳,比如KUKA iiwa机器人有7个自由度,使得探索空间一下大了很多,训练难度陡升。同时policy网络的梯度完全来自于Q网络,Q函数的拟合误差都直接传导给了policy,致使DDPG的训练稳定性也不足。在Google的抓取应用中,干脆抛弃了独立policy网络,做决策时随机在区间里取16个点输入Q网络,然后选择Q值最大的那个作为action,实验结果表明如此粗糙的做法却大大提升了训练稳定性,且性能显著优于DDPG,有点尴尬……
总结一下,如果我们面对的问题是连续控制任务,action维度又不高,可以尝试用DDPG解决,但也不要忘了离散化动作空间并用DQN训练得到更高性能的可能性。如果action维度很高,那还是别用DDPG的好。如果数据很“贵”不得不用off-policy方法的话,那就向Google学习,拿掉policy网络,直接用Q网络+启发式搜索选择action。如果数据廉价又追求高性能,我推荐使用PPO框架——个人比较偏爱的一种框架。
2021年2月15日更新:上述建议已经过时了,对于连续控制任务,推荐优先使用SAC,后者在训练稳定性、收敛速度和性能方面都是目前的SOTA,作为off-policy算法数据效率也相对较高,SAC作者尝试直接用实体机器人采样并在几个小时内成功收敛。
A3C→A2C→PPO
在成熟版SAC出现以前,PPO曾带给我最多的成功经验。PPO从A3C的同步版本A2C的基础上演化而来。
A3C作为Actor-Critic算法,核心是REINFORCE梯度策略方法。其policy输出的不是action,而是关于action的概率分布,因此梯度无法直接从Critic(又称为V网络)流到policy网络,只能用在线样本统计出一个近似梯度。原始REINFORCE梯度形式如 [公式] V(s) logπ(a|s),直观解释就是使状态s下返回高V值的action出现概率更大。缺点是V值绝对值不可控(与reward等因素有关),variance很大,造成训练不稳定。A3C将梯度改成 [公式] A(s,a) logπ(a|s),A(s,a)是在线episode计算出的一对s,a的Value值与当前V网络估计值之差,并经过normalization操作,简单理解就是把log前的部分做了一个居中+归一化,variance降低,训练稳定性显著提升,这里的A(s,a)称为a在s下的advantage,是A3C名字里的第二个'A'。既然policy输出的是action概率分布,那么探索就很容易实现——按照这个分布采样即可,训练初期分布variance比较大,探索力度强,随着policy不断改善,分布variance越来越小,代表policy对所选action越来越自信,这就实现了对经验的利用。
A3C能够充分利用多核资源,在不同CPU上并行运行不同的环境种子,显著提升了训练稳定性、收敛速度以及最终性能。A3C支持多种action概率分布,如果action空间是DQN那样的离散集合,可以用Categorical分布;如果是像DDPG那样的多维连续分布,可以用Multivariate Gaussian分布,此外A3C还支持伯努利分布,如果action的每一维都是非此即彼的二值选项,或者one-hot向量太长想改用二进制表示,那就是它了。可见,A3C在通用性上是显著优于DQN和DDPG的,几乎所有任务都能拿A3C跑一跑。此外,A3C作为on-policy方法,每次更新policy的梯度都由当前policy采集的样本计算,这使得A3C在MARL任务里对环境不稳定性的抵抗能力比DQN和DDPG更强。
A3C将多核环境中计算的梯度进行异步(Asynchronous)聚合,然后统一更新主网络并将新参数分发到各环境。这种方式的运行效率较高,但计算的梯度可能与当前主网络参数在时间上“错位”,有可能损害算法性能。因此,学术界更多地沿用了A3C的同步梯度聚合版本A2C。PPO就是在A2C的基础上利用clip操作进一步限制了每次梯度更新的幅度,从而显著提升了训练稳定性。和很多paper的实验结果一致,我在实际应用中发现PPO在连续控制任务里性能显著优于DDPG,对超参数的敏感度也比DDPG低,因此训练起来更加得心应手。因此,我推荐大家在解决连续任务时首选PPO,DDPG的优先级往后放就是了。对于具有离散动作空间的任务也值得用A3C跑一下,跟DQN比一比。
2021年2月15日更新:考虑到这篇文章写作时间较早,这里统一更新算法选择方面的建议:对于连续控制任务,推荐SAC、TD3和PPO,三种算法都值得试一试并从中择优;对于离散控制任务,推荐SAC-Discrete(即离散版SAC)和PPO。至于TD3和SAC的详细介绍,网上资料很多,暂时就不写了,有机会再说。
其他算法
以上三个DRL框架是基础,大多数情况下都至少能得到一个“能用”的policy。然而,也不应奢望它们能解决一切问题。DRL领域是个大坑,里边有太多需要解决的问题和值得挖掘的方向,比如:高难度探索,稀疏reward,数据效率,训练稳定性,快速适应新环境等等,类似MARL这样的子领域还有自己特有的问题,如环境不稳定性,scalability等等。算法工作者一定要保持开放的态度,及时跟踪学术界的新趋势新方法。
每当算法性能遇到瓶颈,首先要沉下心来分析关键制约因素在哪里,如果是上述这些普遍意义上的问题造成,那就去相关方向最新paper中寻找灵感。比如探索不够充分时,可以用count-based exploration或者parameter noise来加强探索;DQN训练不稳定时,可以尝试Double-DQN,或者孪生网络,每次选择较小Q值计算目标值,从而抑制overestimation;DQN或DDPG数据效率不够时,可以用prioritized replay buffer;MARL里为了改善环境不稳定问题,可以尝试DIMAPG,……。问题无常势,算法无常形,群众智慧是无穷的,博采众长才能攻无不克。
关于算法选择就先写到这里,不同算法在训练时还有各种各样的trick和注意事项,我在训练篇里再详细介绍。
系列4: 动作空间篇
前言
在将DRL应用于实际项目时,可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单,而是agent的控制方式往往早就定死了,留给我们发挥的空间很小,就好像我们无法决定DOTA里允许多少种操作,也无法改变一台机器人的关节数量和各自的角度范围,Gym用户甚至从来都不用为这个问题操心,action空间有多少维,连续还是离散,各种domain早就都定义好了,我们根据这些性质判断任务的难度,仅此而已。选择困难症患者表示松了一口气有木有~~当然咯,如果运气足够好,agent提供了多种控制选项并允许我们自由选择时,一定要珍惜这种机会。
对动作空间的三个要求
完备性
动作空间首先要提供实现预期目标的可能性,避免在任务解空间中出现无法触及的“状态盲区”,尤其是要保证高性能区域的充分可达性。这一方面要求动作空间要具有功能完备性,比如一辆汽车必须具备加减速、转弯和刹车等基本功能才可以实现导航和防撞任务;另一方面还要求动作空间具有时效完备性,即使一辆汽车具备了正常行驶所需的全部功能,但如果这些功能的响应速度过慢,或者决策周期过长,都会严重影响高速行驶下的突发状况应对能力,因此动作的作用频率必须满足特定任务所需的最低要求。
高效性
动作空间应该尽可能简单高效,从而有效降低训练难度和提升算法性能。一方面,可以将连续动作空间化整为零,在满足基本控制精度的前提下将其转化为离散动作空间,这样可以显著压缩解空间维度,提高探索效率;另一方面,可以根据实际情况,将一些基本动作进行有机组合构成宏动作,就好像实况足球游戏中的马赛回旋、牛尾巴、油炸丸子等久经考验的高级摆脱技巧,让算法依靠自由探索“撞到”并掌握它们的难度极高,但如果能将这些技巧直接作为常备选项,由算法学习如何合理运用它们,将起到事半功倍的效果。
合法性
还有一点值得注意,在DRL应用中并不是所有action在任何state下都有效,比如AlphaGo就不能在棋盘上已经被占据的位置落子,骑自行车时也最好别倒蹬车,自动驾驶车辆遇到行人时绝对不能撞上去。对于特定状态下规则不允许出现的action或者引发严重后果的action,我们应该直接屏蔽掉。DRL与其他AI算法一样,都属于统计学范畴,我们在理解policy输出时也应该使用概率思维,即使agent学会在99.99%的情况下输出合法action,但仍存在0.01%的可能性输出非法action,与其寄希望于DRL完全学会遵守规则,不如加一层“硬保险”来得靠谱。
上述非法动作屏蔽机制是动作空间设计不可或缺的环节,在屏蔽非法动作的基础上,通常还应该在状态空间中标识出当前可用的合法动作,从而使算法在学习过程中意识到某状态下特殊规则的存在,并学会主动遵守规则,每次都从合法动作中做选择。这也是状态空间和动作空间协同设计的经典场景。
总结
关于动作空间的内容不多,DRL算法工作者的主战场在其他方面,比如下一篇我们将要介绍的重头戏——状态空间设计。