职位名称:远程强化学习工程师(兼职 / 项目制)
我们是一个专注于前沿 AI 解决方案的项目团队,创始人来自上海交通大学,致力于将强化学习技术应用于解决复杂的仿真和决策问题。我们正在寻找一位经验丰富的强化学习工程师,以兼职项目制的形式加入我们,共同交付高标准的客户项目。
如果您对技术充满热情,渴望将算法落地,并希望获得与您能力相匹配的丰厚回报,我们期待您的加入。
🚀 您的主要职责
算法实现与训练: 基于项目需求,使用 stable-baselines3 或 ray (RLlib) 框架,高效搭建、调试和训练强化学习模型。
仿真环境对接: 负责在各类仿真环境(如 Gym, MuJoCo, Isaac Gym 或客户定制环境)中完成算法的部署与测试。
性能调优: 分析训练数据,诊断模型问题,持续优化算法参数与网络结构,直至达到项目交付标准。
交付与沟通: 独立完成分配的项目模块,并与团队保持清晰、高效的远程沟通。
🎯 任职要求(必须)
框架掌握: 精通 stable-baselines3 或 ray (RLlib) 至少其中之一,具备丰富的实际项目经验和 Debug 能力。
理论扎实: 深刻理解主流强化学习算法(如 PPO, SAC, DDPG, DQN 等)的原理和适用场景。
仿真经验: 必须具备在仿真环境中独立完成模型训练、调参与验证的完整经验。
编程能力: 熟练掌握 Python,熟悉 PyTorch 或 TensorFlow。
职业素养: 具备强大的自我驱动力、责任心和时间管理能力,能按时高质量交付工作。
✨ 加分项(非必须,但优先考虑)
同时熟悉 stable-baselines3 和 ray (RLlib) 框架者。
有自定义 Gym 环境开发经验者。
了解多智能体强化学习(MARL)或离线强化学习(Offline RL)者。
有机器人控制、自动驾驶、游戏 AI 或金融交易等领域仿真经验者。
💰 薪酬与合作模式
这是我们最具吸引力的部分,我们寻求的是顶尖的合作伙伴,而非廉价劳动力:
工作模式: 100% 远程兼职,您可以全球任意地点办公,自由安排工作时间。
合作方式: 按项目制合作,灵活且专注。
超高项目分成: 您将获得项目合同总金额的 90% 作为您的酬劳。我们只保留 10% 作为平台和管理费用。
五星好评奖金: 如果客户对您的交付成果给予五星好评,您将获得额外的现金 Bonus!