大规模API下的RL环境与奖励设计训练-Bravo Star-阿里巴巴2027届实习生

薪资面议

深度学习

本科

卢先生 2分钟前在线

阿里巴巴集团·高级招聘经理

投递时间：2026年4月24日-2027年4月24日

岗位职责

阿里国际站是全球Top的跨境B2B数字贸易平台，致力于推动跨境电商发展。我们正在寻找对LLM技术充满热情并希望将其落实到实际业务中同学，加入我们的LLM算法团队。我们拥有业界为数不多已实现大规模商业化并持续快速增长的AI产品，团队在LLM领域的多项研究成果也已在NeurIPS、ICML、ICLR等顶级学术会议上获得认可。 1. 负责研发下一代Agentic System，通过多步规划(Planning)、反思(Reflection)与工具调用(Tool-Use)能力，为全球商家构建自动化的数字员工。我们致力于将大模型演进为能够深度嵌入业务流的决策中枢，实现复杂任务闭环(如自动化选品、智能营销策划等)的端到端服务，直接交付高价值业务结果，定义AI原生的B2B贸易新范式。 2、面对阿里国际站海量的异构API生态，构建基于强化学习的训练决策迭代技术。设计并实现复杂任务流下的环境模拟器(Envioronment Design)与多维度奖励函数(Reward Shaping)，通过RL训练提升模型在动态、高并发API环境下的编排、纠错与执行能力。解决B2B贸易中长链路、多变量的复杂预测与执行需求，持续探索强化学习技术在工具调用场景的最前沿落地。

岗位要求

1. 计算机科学、人工智能、自然语言处理、数学或相关专业硕士及以上学历，有扎实的计算机知识和NLP功底； 2. 对文文的预训练、推理、强化学习等知识有较好理解，尤其对前沿大模态有较强的工程实践经验； 3. 具备良好的逻辑思维能力和独立解决问题的能力，拥有较强的学习能力，能快速跟踪前沿技术热点并始终保持技术创新热情； 4. 拥有知名会议论文(NeurIPS/ICML/ICLR)、开源项目经验，具备大模型成功落地、百亿参数级别的预训练、RL实战经验。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里巴巴集团

电商

不需要融资

杭州市

查看其他 500 个职位

0 笔试题目 4473 面试经验 2538 面试短评