【26届校招】-大模型强化学习算法青年研究员/工程师-大模型中心

薪资面议

算法工程师

不限

葛女士 9分钟前在线

上海人工智能创新中心·校招

反馈率：66% | 反馈时长：13天

投递时间：2025年8月22日-2029年2月6日

岗位职责

参与实验室书生大模型后训练阶段的强化学习及其规模化定律（scaling law）研究。工作内容包括： 1. 参与实验室书生大模型后训练阶段的强化学习算法研究，主要包括：基于 AI 和环境反馈的强化学习（RLXF）算法研究和以大模型为核心的多智能体强化学习算法研究，覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务； 2. 参与奖励和反思评价模型的相关研究，研究可泛化的细粒度过程监督和奖励建模，并探索基于细粒度反馈的强化学习算法，覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务； 3. 参与后训练和推理阶段的规模化定律研究，包括：奖励和反思评价模型训练、强化学习阶段、推理阶段的规模化定律研究； 4. 参与世界模型相关研究，面向文本、图文多模态场景下的复杂推理与规划场景，研究基于世界模型的推理规划和强化学习训练算法； 5. 参与推动最新的强化学习后训练方案的规模化工程实践与落地应用。

岗位要求

1. 硕士/博士研究生学历，人工智能等相关专业优先（如计算机科学、数学、统计、电子工程等），有强化学习研究经验优先； 2. 熟悉大模型领域尤其是强化学习相关研究工作和算法，有大模型强化学习的研发基础，拥有高影响力顶会论文、知名竞赛获奖、顶级研究机构工作经验者优先； 3. 熟练使用 Python、PyTorch、Ray 等语言和代码库，能够研判领域内最新的研究趋势，能够系统性对比研究领域相关成果并制定探索计划，有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先； 4. 目标导向，有优秀的学术视野和判断力，具备优秀的问题提出、分析和解决能力，良好的团队协作精神和沟通意识。

龙文路129号（国际传媒港L1大楼）

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

上海人工智能实验室

未融资

上海

查看其他 33 个职位

0 笔试题目 2 面试经验 0 面试短评