腾讯CDG金融科技:大模型后训练算法实习生(可转正、深圳)团队简介:在这里,你将有机会接触到数亿级真实交易数据,利用最前沿的大模型技术解决金融支付、智能客服、风控合规及内部生产力工具等领域的复杂挑战。我们拥有充足的算力资源、海量的业务数据以及浓厚的学术氛围。岗位描述:1、模型训练与调优(1)参与大模型后训练(SFT、DPO、RLHF、GRPO等)算法的设计与实现,针对支付内垂直领域,提升模型对行业术语、合规要求、复杂逻辑的理解能力。(2)构建垂类专属奖励模型(Reward Model),融合领域知识(如内部知识、金融风控规则等)优化模型输出的准确性。2、场景落地实验(1)将后训练模型部署至行业分类、合规管控、金融风控等场景,优化模型在真实业务中的推理准确率与响应速度。(2)分析模型在业务场景应用中存在的问题,并针对问题完成模型优化方案设计和实验,提升模型应用效果。背景要求: 计算机、数学、自动化等相关专业的在读硕士或博士学术基础:1、扎实的机器学习/深度学习理论基础,熟悉Transformer、强化学习(RL)等核心原理,熟悉大模型训练细节。2、熟练掌握Python编程,精通PyTorch框架,具备数据处理与实验设计能力。3、有 LLM 微调、强化学习或自然语言处理(NLP)相关项目经验者优先。素质能力: 具备优秀的逻辑思维能力和解决问题能力,对新技术充满好奇心,能够阅读并实现前沿论文。实习时长: 能够连续实习 6个月及以上加分项:在 NeurIPS, ICML, ICLR, ACL, EMNLP 等顶会发表过高质量论文。在 Kaggle、天池等主流算法竞赛中获得过优异名次。有大规模分布式训练优化经验或算子开发经验。熟悉开源社区(如 HuggingFace, Llama-Factory 等)并有贡献者。