算法工程师-强化学习

400-500元/天

算法工程师

本科

5天/周

最少3个月

有转正

白女士

阿里巴巴集团·招聘HR

反馈率：6%

岗位关键词

投递时间：2026年3月13日-2026年7月1日

岗位职责

1. 负责大语言模型（LLM）及多模态模型后训练（Post-Training）阶段的强化学习算法迭代； 2. 深入研究并优化基于人类、AI 及环境反馈的 RL 算法（如 PPO, DPO, GRPO, ORPO 等），提升模型的规则遵循与多目标平衡能力； 3. 探索基于 RL 的 Reasoning 模型相关技术（如 CoT 思维链、CoA 动作链的融合），实现原生具备多步思考和工具调用能力的推理模型； 4. 将 RL + LLM 技术应用于实际业务（如跨境贸易搜索、商家智能诊断、电商 Agent 等），设计并实现智能化的决策优化方案，提升业务效能。

岗位要求

1. 本科及以上学历，计算机、数学、统计学、物理或自动化等相关专业优先； 2. 具备扎实的机器学习、深度学习及自然语言处理（NLP）理论基础，熟悉 Transformer、ViT、CLIP 等主流预训练模型； 3. 深入理解强化学习原理，熟悉 RM、PPO、DPO、GRPO、MBRL 等至少数种 RL 算法及其应用范式； 4. 精通 Python 编程，熟练运用 PyTorch 进行模型训练与调试。 5. 具备极佳的工程实现能力，了解大模型训练系统（如分布式训练、加速优化）或相关底层代码库者优先。

朝阳

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里巴巴集团

电商

不需要融资

杭州市

查看其他 418 个职位

0 笔试题目 4473 面试经验 2538 面试短评