清华大学】李升波教授《强化学习与控制》课程PPT-3

实验室官方助手

一、《强化学习与控制》课程介绍

目前，人工智能的快速崛起正重塑人类社会的各个领域，有望引导工业文明进入新一轮革命浪潮。以道路交通为例，汽车的智能化变革促使整个行业发生了翻天覆地的变化，包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现，它们在提升地面车辆行驶性能的同时，也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

以模仿人类大脑学习机制为原理的强化学习（RL，Reinforcement Learning）正迅速进入人们的视野，它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能：它利用深度强化学习算法实现围棋智能的自我进化，自我超越，打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势，但是该方法的工程应用尚属于起步阶段。

《强化学习与控制》这一门课程包括11讲。

第1讲介绍RL概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识，包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法，包括Monte Carlo估计，On-policy/off-policy，重要性采样等。

第4讲介绍免模型学习的时序差分法，包括它衍生的Sarsa，Q-learning，Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法，包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法，包括常用近似函数，值函数近似，策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法，包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习，即以神经网络为载体的RL，包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习，即近似动态规划，尤其是离散时间系统的ADP，无穷时域ADP与有限时域ADP，以及ADP与MPC的关联分析等。

第10讲介绍了状态约束的处理手段以及它与可行性之间的关系，讲述了安全保障的基本机制与训练策略。

第11讲介绍RL的各类拾遗，包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

二、《授课老师简介》

李升波，清华大学教授/博导，车辆与运载学院副院长。留学于斯坦福大学，密歇根大学和加州伯克利大学。从事自动驾驶汽车、类脑人工智能等研究。发表论文130余篇，引用>14000次。入选IEEE高关注度及封面论文5篇，ESI高引12篇（学科前1%），领域顶级学术会议优秀论文奖9次。获中国自动化学会自然科学一等奖、中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选第五批国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金杰青项目等。

完整版ppt请登录下载pdf

lect-3-mc.pdf
3MB

liyajun0908

实验室官方助手请问这个课程有视频吗

实验室官方助手

liyajun0908 目前该课程还没有网络公开，只有PPT了

Document