【26届校招】-大模型强化学习算法青年研究员/工程师-大模型中心

薪资面议
算法工程师
上海
不限

投递时间:2025年8月22日-2029年2月6日

岗位职责
参与实验室书生大模型后训练阶段的强化学习及其规模化定律(scaling law)研究。工作内容包括: 1. 参与实验室书生大模型后训练阶段的强化学习算法研究,主要包括:基于 AI 和环境反馈的强化学习(RLXF)算法研究和以大模型为核心的多智能体强化学习算法研究,覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务; 2. 参与奖励和反思评价模型的相关研究,研究可泛化的细粒度过程监督和奖励建模,并探索基于细粒度反馈的强化学习算法,覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务; 3. 参与后训练和推理阶段的规模化定律研究,包括:奖励和反思评价模型训练、强化学习阶段、推理阶段的规模化定律研究; 4. 参与世界模型相关研究,面向文本、图文多模态场景下的复杂推理与规划场景,研究基于世界模型的推理规划和强化学习训练算法; 5. 参与推动最新的强化学习后训练方案的规模化工程实践与落地应用。
岗位要求
1. 硕士/博士研究生学历,人工智能等相关专业优先(如计算机科学、数学、统计、电子工程等),有强化学习研究经验优先; 2. 熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础,拥有高影响力顶会论文、知名竞赛获奖、顶级研究机构工作经验者优先; 3. 熟练使用 Python、PyTorch、Ray 等语言和代码库,能够研判领域内最新的研究趋势,能够系统性对比研究领域相关成果并制定探索计划,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先; 4. 目标导向,有优秀的学术视野和判断力,具备优秀的问题提出、分析和解决能力,良好的团队协作精神和沟通意识。
龙文路129号(国际传媒港L1大楼)
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
上海人工智能实验室
未融资
上海
查看其他 33 个职位