【北斗】大模型算法工程师(多模态/后训练/DeepSearch/RL)内推链接:http://dpurl.cn/75M1Wd9z内推码:HY5Y8BR(该内推码多岗位可用)岗位职责研究方向一:大模型智能体Agent技术研究1.研究多轮长对话中的上下文管理技术,提高模型的连贯性和一致性,并探索基于用户特征和历史交互的定制对话策略,设计针对特定业务场景的微调和适应技术,提升模型在实际应用中的表现。2.探索智能体调用和使用多个外部工具的方法,通过端到端后训练的方式增强其解决实际问题的能力。深度研究智能体的自我评估和学习机制,实现智能体的持续优化和能力提升。3.优化LLM长链路的多轮工具调用能力,提升工具调用时的精确性及用户的实际交互体验。4.设计并完善针对特定任务场景的Auto-Eval能力,指导模型迭代方向。研究方向二:深度搜索(Deep Search/Research)技术研究1.研究面向深度搜索场景的工具学习方法,基于SFT/RLHF后训练算法赋予搜索智能体高效的工具调用能力。2.对齐行业最前沿的研究进展,深入研究不同工具调用环境下的大模型后训练能力边界,并基于实际业务场景进行迭代优化。研究方向三:多模态基础模型能力建设1.研究多模态数据(文本、语音、图像等)的语义融合与表示方法,提升模型对复杂内容的理解能力。2.探索多模态模型在推理任务中的表现,研究如何通过工具调用增强模型的推理能力。3.设计高效的多模态模型架构,优化模型的参数规模、训练效率和推理性能,提升基础模型的通用性与适应性。研究方向四:大模型分布式后训练及推理加速技术1.后训练方向:样本IO吞吐优化:使用多线程读取、数据管道流水线编排、数据压缩等技术,实现分布式环境下高性能的样本IO pipeline;计算图编译与高效执行:通过图编译、Kernel优化、算子融合等手段,提升计算图的执行效率;高性能并行训练:包括DP/TP/PP/SP/CP/EP等并行策略及其他训练超参数的自动寻优,故障自动恢复,弹性计算等;强化学习训练效率优化:通过rollout速度优化、多模型多阶段流水线编排、负载均衡等手段优化RL训练效率。2.推理加速方向:负责实现和优化大模型在线推理系统,提升推理性能,包括不限于:架构设计、算子开发、通信优化等; 研究并实现各种模型推理加速手段如并行策略、混合精度、MOE、FP8等技术,加速模型推理速度; 设计和开发高效的离线、在线推理系统,优化SGLang、vLLM等推理框架,加速整体推理性能。任职要求1.硕士及以上学历,博士优先,计算机、数学或统计学等相关专业。2.在Query理解,召回,相关性,排序,智能交互等方面有深入实践,具备大模型相关经验者优先。3.扎实的深度学习理论基础,精通主流深度学习框架(如Tensorflow、Pytorch),拥有大模型SFT、RAG、DPO/PPO等大模型实操经验优先。4.具备较强的coding能力,熟练使用Python/C++等语言,在ACL/EMNLP/ICML/CILR/NIPS/CVPR/ICCV等顶会有论文发表经历优先5.优秀的分析、解决问题能力,对AGI的未来趋势与挑战有浓厚兴趣。6.精通至少一种深度学习框架(如TensorFlow, PyTorch),并具备良好的编程能力(Python, Java等)。7.对解决挑战性问题充满激情,较强的责任心、主动性和韧性,能良好的沟通协作。岗位亮点:1.拥有业界一流的团队,成员大多来自国内外名校,团队内有多位北斗、博士,可全方位支持前沿技术研究;2.核心业务支撑,参与前沿的大型模型技术研究和落地,探索大模型技术在实际业务场景中的应用;3.当前美团核心的GPU落地场景之一,和团队一起探索学习异构计算领域的前沿技术,个人成长快4.创新型团队扁平化管理,研究成果直接连接数亿用户的实际生活,国内最好的大模型后训练应用土壤。工作城市北京市