正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
前沿报道
并行环境让采样速度快两个量级:Isaac Gym提速强化学习
【DeepMind】Your Policy Regularizer is Secretly an Adversary
【重磅】Gym发布 8 年后,迎来第一个完整的环境文档
Tutorial: An Introduction to Reinforcement Learning Using OpenAI Gym
DeepMind开源AlphaFold所有源代码及论文
【47页综述】自动强化学习综述:AutoRL(Automated Reinforcement Learning)
【伯克利】Understanding the World Through Action
【新书推荐】分布强化学习(Distributional Reinforcement Learning)
The reward hypothesis(奖励假设)
大脑也在强化学习!加州大学提出「价值决策」被大脑高效编码,登Neuron顶刊
【39页综述】深度强化学习的泛化性
强化学习「回收」了SpaceX的火箭, 实现空中悬停、翻滚转身、成功着陆
Rliable: 强化学习的更好评估 之“视觉解释”
【DeepMind重磅】MuJoCo物理引擎,全面开源,再也不用申请license了
直播预告|俞扬教授受邀参加Intel《至强非凡现场》,介绍强化学习如何落地
【Google最新成果】使用新的物理模拟引擎加速强化学习
为什么说强化学习在近年不会被广泛应用?
Nature发布OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
TD-error 的其他损失
« 上一页
Document