AI模型工程师
410-430元/天
算法工程师 东莞 硕士 5天/周 最少2个月

岗位关键词
投递时间:2026年4月2日-2028年5月2日
岗位职责
1、围绕语言、多模态、Agent能力,探索后训练SFT数据配比、SFT策略、SFT&RL协同策略、RL训练算法;
2、参与研究面向Agentic(Planning、Tool-use、Skills-use等),Reasoning(STEM、Logic、TIR等)、Coding(Bug-fix、Feature-implementation等)、General(Instruction Following、Hallucination Control、Context Learning、Content Understand and Generation)等高优场景的针对性Reward System 构建、环境模拟、强化学习训练策略
3、参与研究强化学习算法、提升强化学习训练稳定性,包括但不限于探索重要性采样策略、细粒度Reward设计、Credit Assignment策略、Off-policy Masking等提升RL训推一致性策略
4、参与探索Model Merge(模型融合)、On-policy KD(在线蒸馏)、Multi-task RL(多任务强化学习)等专项能力融合策略
岗位要求
1、计算机科学、人工智能、数据科学、软件工程、统计数学等相关专业;
2、具备软件工程和算法实现能力,熟悉模型架构、深度学习框架;
3、具备较强的学习力、自驱力、团队协同和责任意识;
4、具备语言/语音/多模态/空间智能相关模型后训练SFT或RL验证的相关方法者优先;
5、在领域顶级会议(如NeurlPS, ICML, AAAI, VLDB等)发表论文,或有相关实习经验/高水平竞赛(如ACM, ICPC等)获奖经历者优先。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报