【26届校招】-多模态大模型强化学习工程师/ 青年研究员-安全可信中心
薪资面议
算法工程师 上海 不限

投递时间:2025年8月16日-2028年10月14日
岗位职责
"职位描述
你将收获:
深入探索应用于多模态大模型的强化学习前沿算法,设计并验证能够提升模型对齐效果、可解释性与鲁棒性的创新方法。
系统性地研究和应对由 AI 生成内容带来的新型、复杂的安全与伦理挑战,产出具有行业影响力的研究成果。
岗位职责
多模态推理探索: 探索如何将强化学习应用于视觉、语言各类等多模态信息的对齐,解决图文理解、视频交互等场景下的复杂推理与决策难题。
奖励机制与价值建模: 设计和迭代 Reward Model 与价值评估体系,研究如何更精确地建模人类偏好与复杂价值观,并将其有效传递给大模型。
AI安全与伦理研究: 深入研究 AI 生成内容的潜在风险,如偏见、幻觉、滥用等,并开发基于强化学习的防御、纠偏与可控性技术。
"
岗位要求
"任职要求
具备优秀的算法实现与实验能力,对数据结构、算法等计算机科学基础知识有深入理解。
拥有扎实的强化学习理论基础,对主流强化学习算法有深入理解,并具备 PyTorch 深度学习框架下的成熟实践经验。
对多模态学习、强化学习与AI安全/对齐领域有深入的理解和强烈的研究热情。
具备优秀的科研思维与创新能力,能够独立发现问题、提出假设、设计实验并进行严谨的分析验证。具备出色的学习能力和解决问题的热情,善于沟通,能够与团队成员高效协作。
加分项
科研经历: 在 NeurIPS / ICLR / ICML / CVPR 等顶级会议上以第一作者身份发表过强化学习、多模态模型、AI安全等相关方向的论文。
相关研究经验:
对多模态奖励模型的训练和评测有深入研究。
有 RLHF/RLAIF/Constitutional AI 等对齐算法的深入研究或实现经验。
开源社区贡献: 主导或核心贡献过有影响力的AI算法或研究相关的开源项目。
竞赛与荣誉: 在计算机、数学等学科竞赛中获得过奖项,或获得过知名奖学金、顶尖导师的推荐信。"
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报