岗位职责
1、参与大语言模型的核心技术研发:参与大规模语言模型(LLM)在训练、微调、推理优化、模型架构探索(如MoE)、长上下文处理、多模态融合等一个或多个关键方向的研究与工程实践;
2、算法实现与优化: 负责将前沿算法、论文思路转化为可运行的代码,并进行性能调优(如分布式训练优化、计算效率提升、显存优化);
3、数据处理与构建: 参与大规模、高质量训练数据的收集、清洗、预处理及评估数据集的构建工作,理解数据对模型性能的关键影响;
4、模型评估与实验分析: 设计并执行模型训练和评估实验,分析实验结果,撰写技术报告,为模型改进提供数据支持;
5、技术调研与跟踪: 持续跟踪国内外大模型领域(LLM, VLM, Agent等)的最新研究进展(论文、开源项目、技术博客),并能进行深入理解和分析;
6、工具与平台支持: 熟悉并运用主流深度学习框架(如PyTorch)、分布式训练框架(如DeepSpeed, FSDP)、大模型开发工具链(如Hugging Face Transformers, vLLM)等;
7、参与将大模型技术应用于实际业务场景的研发工作,如智能对话、内容生成、代码辅助、知识问答等;
岗位要求
1、硕士及以上学历,计算机科学、人工智能、软件工程、数学、统计学、电子工程等相关专业
2、扎实的编程基础: 精通 Python, 具备良好的数据结构、算法基础和软件工程素养(代码规范、版本控制Git);
3、机器学习/深度学习基础: 系统学习过机器学习、深度学习相关课程,理解常见模型(如CNN, RNN/LSTM, Transformer)的基本原理和训练流程;
4、对Transformer架构的深入理解: 熟悉Transformer的核心组件(Self-Attention, FFN, LayerNorm, Positional Encoding)和工作原理,这是大模型的基石;
5、强烈的兴趣与热情: 对人工智能、自然语言处理(NLP)特别是大语言模型领域有浓厚的兴趣和强烈的探索欲,愿意投入大量时间学习和钻研;
6、优秀的学习能力: 具备快速学习新知识、新技术的能力,能独立阅读和理解英文技术论文和文档;
7、分析与解决问题能力: 具备优秀的逻辑思维能力、分析能力和解决复杂技术问题的潜力;
8、有使用过 PyTorch/TensorFlow等框架训练或微调过Transformer类模型(如BERT, GPT, T5等)的实际经验者优先;
9、有参与过大模型相关项目(训练、微调、部署、应用开发)的经验,即使是小规模实验者优先;
10、沟通与团队协作: 良好的沟通表达能力和团队合作精神;