算法工程师-强化学习

400-500元/天
算法工程师
北京
本科
5天/周
最少3个月
有转正
岗位关键词

投递时间:2026年3月13日-2026年7月1日

岗位职责
1. 负责大语言模型(LLM)及多模态模型后训练(Post-Training)阶段的强化学习算法迭代; 2. 深入研究并优化基于人类、AI 及环境反馈的 RL 算法(如 PPO, DPO, GRPO, ORPO 等),提升模型的规则遵循与多目标平衡能力; 3. 探索基于 RL 的 Reasoning 模型相关技术(如 CoT 思维链、CoA 动作链的融合),实现原生具备多步思考和工具调用能力的推理模型; 4. 将 RL + LLM 技术应用于实际业务(如跨境贸易搜索、商家智能诊断、电商 Agent 等),设计并实现智能化的决策优化方案,提升业务效能。
岗位要求
1. 本科及以上学历,计算机、数学、统计学、物理或自动化等相关专业优先; 2. 具备扎实的机器学习、深度学习及自然语言处理(NLP)理论基础,熟悉 Transformer、ViT、CLIP 等主流预训练模型; 3. 深入理解强化学习原理,熟悉 RM、PPO、DPO、GRPO、MBRL 等至少数种 RL 算法及其应用范式; 4. 精通 Python 编程,熟练运用 PyTorch 进行模型训练与调试。 5. 具备极佳的工程实现能力,了解大模型训练系统(如分布式训练、加速优化)或相关底层代码库者优先。
朝阳
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 418 个职位