大规模API下的RL环境与奖励设计训练-Bravo Star-阿里巴巴2027届实习生

薪资面议
深度学习
杭州
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
阿里国际站是全球Top的跨境B2B数字贸易平台,致力于推动跨境电商发展。我们正在寻找对LLM技术充满热情并希望将其落实到实际业务中同学,加入我们的LLM算法团队。我们拥有业界为数不多已实现大规模商业化并持续快速增长的AI产品,团队在LLM领域的多项研究成果也已在NeurIPS、ICML、ICLR等顶级学术会议上获得认可。 1. 负责研发下一代Agentic System,通过多步规划(Planning)、反思(Reflection)与工具调用(Tool-Use)能力,为全球商家构建自动化的数字员工。我们致力于将大模型演进为能够深度嵌入业务流的决策中枢,实现复杂任务闭环(如自动化选品、智能营销策划等)的端到端服务,直接交付高价值业务结果,定义AI原生的B2B贸易新范式。 2、面对阿里国际站海量的异构API生态,构建基于强化学习的训练决策迭代技术。设计并实现复杂任务流下的环境模拟器(Envioronment Design)与多维度奖励函数(Reward Shaping),通过RL训练提升模型在动态、高并发API环境下的编排、纠错与执行能力。解决B2B贸易中长链路、多变量的复杂预测与执行需求,持续探索强化学习技术在工具调用场景的最前沿落地。
岗位要求
1. 计算机科学、人工智能、自然语言处理、数学或相关专业硕士及以上学历,有扎实的计算机知识和NLP功底; 2. 对文文的预训练、推理、强化学习等知识有较好理解,尤其对前沿大模态有较强的工程实践经验; 3. 具备良好的逻辑思维能力和独立解决问题的能力,拥有较强的学习能力,能快速跟踪前沿技术热点并始终保持技术创新热情; 4. 拥有知名会议论文(NeurIPS/ICML/ICLR)、开源项目经验,具备大模型成功落地、百亿参数级别的预训练、RL实战经验。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 500 个职位