算法工程师 · AI 面经（含回答思路

算法工程师岗考察:传统 ML 基础 + 推荐 / 搜索 / NLP / CV 业务方向 + 项目落地能力。

1、传统机器学习 / NLP

分词 / NER 的常见算法
- 思路:分词: HMM/CRF/BiLSTM-CRF/BERT;NER: 序列标注同上 + 大模型 ICL 直接抽取。
分类 / 回归的区别
- 思路:离散标签 vs 连续值;损失不同(交叉熵 vs MSE);评估指标不同(F1 vs MAE/MSE)。
过拟合的原因和解决
- 思路:模型容量过大/数据少/训太久;解决: 正则化 + Dropout + 早停 + 数据增强 + 简化模型。
特征工程在大模型时代还重要吗
- 思路:通用 NLP 场景下降;垂直/小数据/结构化数据仍然关键。大模型 + Prompt 替代了大部分手工特征。
F1 / Precision / Recall 的关系
- 思路:P=TP/(TP+FP), R=TP/(TP+FN), F1=2PR/(P+R) 调和平均;类别不均衡看 F1 比 Accuracy 准。
混淆矩阵的四个值
- 思路:TP(真正)/FN(假负)/FP(假正)/TN(真负);所有评估指标的基础。
XGBoost / LightGBM 区别
- 思路:都是 GBDT;LGBM 用直方图 + Leaf-wise 生长,更快内存少;XGB 稳定久经考验。
监督 / 无监督 / 强化学习的区别
- 思路:有标签学(分类回归) / 无标签找结构(聚类降维) / 奖励信号学策略(游戏机器人)。
K-Means 的原理和适用场景
- 思路:随机 K 个中心 → 分配点 → 更新中心 → 迭代收敛;适合凸形簇 + 数值特征 + 已知 K;先归一化,K 用肘部/Silhouette 定。

2、项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。
关键指标有哪些?北极星指标是什么
- 思路:北极星 = 真实业务指标(留存/转化/任务完成率),配代理指标(召回率/CTR);两者要能解释因果。
上线后效果怎么衡量
- 思路:A/B 实验 + 离线指标 + 用户反馈三件套;不要只说「反馈好」,要给数。
如果重做你会怎么做
- 思路:体现学习能力;选 1-2 个「现在视角看会做不同」的点(技术选型/数据策略)。
你在团队里的角色是什么
- 思路:STAR 法说清「我具体做了什么、对成果有什么影响」,别说「参与」。
和业务方怎么对齐的
- 思路:PRD → 关键指标对齐 → 双周 demo → 灰度;强调「提前对齐预期避免上线后扯皮」。
项目最后真的上线了吗
- 思路:诚实回答;没上线就讲「为什么没上线 + 学到什么」,别硬撑。
项目中怎么用的？
- 思路:结合自己项目场景讲具体用法 + 量化效果(降本/提效/指标变化)。

3、大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
GQA / MHA / MQA 的区别
- 思路:MHA 每头独立 KV;MQA 所有头共用 1 组 KV(省显存);GQA 折中分组共享。Llama2 起 GQA 主流。
LayerNorm / RMSNorm 区别
- 思路:LN 减均值除标准差;RMSNorm 只除 RMS 不减均值,计算少 + 效果接近,Llama/PaLM 采用。
预训练 / 后训练的区别
- 思路:预训练学语言+世界知识(无监督);后训练学指令遵循+安全(SFT/RLHF/DPO)。能力上限看预训练,可用性看后训练。
Decoder-only 为什么成主流
- 思路:见上 Decoder-only 主流原因。
涌现能力是什么
- 思路:模型规模到一定阈值后突然出现的能力(ICL/CoT/多步推理);小模型上完全没有。
弱 AI vs 强 AI 的区别
- 思路:弱 AI=专用任务(现在所有 AI 都是);强 AI=AGI 通用智力,目前不存在。
为何现在的大模型大部分是 Decoder-only 结构？
- 思路:训练简单(单向)、推理统一(自回归)、scaling law 友好、能用同一架构做多任务。
Encoder 编码器与 Decoder 掩码有什么区别？
- 思路:Encoder 双向看全文;Decoder 用 causal mask 只看前面 token,保证自回归性质。
为什么要进行 LN（LayerNorm）？
- 思路:稳定训练 + 加速收敛;Transformer 用 LN 不用 BN 是因为序列长度可变 + 跨样本统计无意义。

4、RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-