大模型算法工程师：入门面试级（含内推码）

一、面试流程概览

通常，大厂校招面试会包含以下环节：

简历筛选：你的学历、项目经历、论文、竞赛成绩、实习经历是第一道门槛。
笔试/在线测评：考察算法编程能力（LeetCode中等/困难难度）、基础数学和机器学习知识。
技术面试（2-4轮）：核心环节，每轮侧重点可能不同：一轮基础深度面：深入考察机器学习、深度学习基础。一轮大模型专项面：深入考察LLM、NLP相关知识和你的项目。一轮代码实现面：考察算法题和模型核心组件的代码实现能力。一轮交叉面/BOSS面：可能涉及更宏观的问题、团队匹配度、研究规划等。
HR面试：考察软实力、职业动机、性格、薪资期望等。

二、核心知识体系

这是你需要掌握的硬核知识，必须做到理解透彻，能清晰地口头表达和推导。

1. 机器学习基础（必须扎实）

基础概念：偏差与方差、过拟合与欠拟合、正则化（L1/L2）、交叉验证、评估指标（Precision, Recall, F1, AUC-ROC等）。
经典算法：线性回归、逻辑回归、决策树、随机森林、GBDT（XGBoost, LightGBM）、SVM的原理、优缺点和应用场景。
优化算法：梯度下降、随机梯度下降、Momentum、Adam、Adagrad等优化器的原理和区别。
基础数学：线性代数：矩阵运算、特征值、特征向量、奇异值分解。概率论：条件概率、贝叶斯定理、常见分布（正态、伯努利）、最大似然估计。微积分：梯度、链式法则。

2. 深度学习基础

神经网络基础：前向传播、反向传播、激活函数（Sigmoid, Tanh, ReLU, GELU等）、损失函数。
CNN：卷积、池化、经典网络结构（ResNet, VGG），在CV领域的应用。
RNN/LSTM/GRU：基本原理，处理序列数据的能力，为何会有梯度消失/爆炸问题。
Attention机制：这是重中之重！必须能白板推导Self-Attention, Multi-Head Attention的计算公式和矩阵运算过程。理解为什么Attention比RNN更好。
Transformer架构：这是大模型的基石。必须能完整画出Transformer的架构图（Encoder-Decoder），并详细解释每一部分（Embedding, Positional Encoding, MHA, Feed-Forward, LayerNorm, Residual Connection）的作用。

3. 大模型核心知识（面试焦点）

核心架构演进：GPT系列：从GPT-1到GPT-4，核心思想是Decoder-only的自回归语言模型。理解其训练流程（预训练+有监督微调+RLHF）。BERT：Encoder-only的双向模型，理解MLM和NSP任务。T5：Encoder-Decoder架构，将所有NLP任务视为文本到文本的生成任务。大模型时代的统一架构：为什么当今主流大模型（LLaMA, ChatGLM, PaLM）都转向了Decoder-only的架构？（生成能力更强、架构更简单）
关键技术与挑战：缩放定律：模型规模、数据规模、计算量之间的经验规律。涌现能力：为什么模型大到一定程度会出现小模型没有的能力？上下文长度：如何扩展上下文窗口？RoPE、ALiBi等位置编码的原理。大模型训练技术：分布式训练：数据并行、模型并行（张量并行、流水线并行）、ZeRO优化器。了解基本概念和解决的问题。混合精度训练：FP16/BF16，为什么能节省显存和加速？FlashAttention：原理和优势（减少GPU内存读写开销）。大模型微调技术：全量微调的问题（成本高、灾难性遗忘）。参数高效微调：必须熟练掌握LoRA的原理、优势和实现方式。了解Adapter, P-Tuning, Prompt Tuning等。推理优化：KV Cache的原理和作用（为什么能加速解码），模型量化（INT8, INT4），模型剪枝。
强化学习与人类反馈：RLHF：三个核心阶段（SFT, Reward Model Training, PPO微调）。必须能清晰阐述每个步骤的目的和流程。这是ChatGPT成功的关键之一。DPO：一种替代RLHF的直接偏好优化方法，了解其基本思想。

三、项目与论文准备

这是体现你实践能力和科研潜力的关键。

1. 项目经历（至少1-2个深度项目）

项目选择：优先选择与大模型/NLP相关的项目，例如：使用Hugging Face Transformers库微调LLaMA/ChatGLM等开源模型解决具体任务（文本分类、摘要、问答、对话等）。参与开源大模型项目（如LLaMA-Factory）的贡献。大模型应用开发（RAG系统、Agent应用）。相关竞赛（Kaggle, 天池）经历。
STAR法则：准备项目介绍时，遵循STAR法则：Situation：项目背景和目标。Task：你承担的具体任务。Action：你采取了哪些行动？重点！为什么选择这个模型？为什么用LoRA而不是全量微调？遇到了什么困难（如显存溢出、数据清洗）？如何解决的？Result：取得了什么结果（量化指标）？有什么总结和反思？
深度思考：准备好回答以下问题：如果给你更多资源，你会如何改进这个项目？项目的瓶颈在哪里？是数据、模型还是计算资源？你这个项目和现有SOTA方法相比，优劣在哪？

2. 论文阅读

必读经典：Transformer： Attention Is All You NeedBERT： BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGPT系列：至少读GPT-2/GPT-3的论文。LoRA： LoRA: Low-Rank Adaptation of Large Language ModelsRLHF： Training Language Models to Follow Instructions with Human Feedback (InstructGPT论文)
阅读方法：不要只看摘要。理解动机、核心方法、实验设置和结论。能用自己的话复述论文核心思想。

四、算法与编码能力

大厂非常看重代码能力，不仅是算法题，还包括模型实现。

算法题（LeetCode）：难度：以中等难度为主，高频题目要非常熟练。分类：重点刷数组、字符串、链表、二叉树、动态规划、回溯、二分查找。模拟面试：在白板或在线编辑器上练习，边说思路边写代码，注意代码风格和边界条件。
模型实现题：可能会让你手写Self-Attention或Transformer某个组件的代码（PyTorch）。可能会问LoRA如何集成到Linear层中，要求写出代码片段。准备一个你熟悉的模型（如MLP, CNN, LSTM）的纯NumPy实现，这能体现你的底层理解。