算法工程师-强化学习
400-500元/天
算法工程师 北京 本科 5天/周 最少3个月 有转正

岗位关键词
投递时间:2026年3月13日-2026年7月1日
岗位职责
1. 负责大语言模型(LLM)及多模态模型后训练(Post-Training)阶段的强化学习算法迭代;
2. 深入研究并优化基于人类、AI 及环境反馈的 RL 算法(如 PPO, DPO, GRPO, ORPO 等),提升模型的规则遵循与多目标平衡能力;
3. 探索基于 RL 的 Reasoning 模型相关技术(如 CoT 思维链、CoA 动作链的融合),实现原生具备多步思考和工具调用能力的推理模型;
4. 将 RL + LLM 技术应用于实际业务(如跨境贸易搜索、商家智能诊断、电商 Agent 等),设计并实现智能化的决策优化方案,提升业务效能。
岗位要求
1. 本科及以上学历,计算机、数学、统计学、物理或自动化等相关专业优先;
2. 具备扎实的机器学习、深度学习及自然语言处理(NLP)理论基础,熟悉 Transformer、ViT、CLIP 等主流预训练模型;
3. 深入理解强化学习原理,熟悉 RM、PPO、DPO、GRPO、MBRL 等至少数种 RL 算法及其应用范式;
4. 精通 Python 编程,熟练运用 PyTorch 进行模型训练与调试。
5. 具备极佳的工程实现能力,了解大模型训练系统(如分布式训练、加速优化)或相关底层代码库者优先。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报