算法工程师 · AI 面经(含回答思路
算法工程师岗考察:传统 ML 基础 + 推荐 / 搜索 / NLP / CV 业务方向 + 项目落地能力。
1、传统机器学习 / NLP
- 分词 / NER 的常见算法
- 思路:分词: HMM/CRF/BiLSTM-CRF/BERT;NER: 序列标注同上 + 大模型 ICL 直接抽取。
- 分类 / 回归的区别
- 思路:离散标签 vs 连续值;损失不同(交叉熵 vs MSE);评估指标不同(F1 vs MAE/MSE)。
- 过拟合的原因和解决
- 思路:模型容量过大/数据少/训太久;解决: 正则化 + Dropout + 早停 + 数据增强 + 简化模型。
- 特征工程在大模型时代还重要吗
- 思路:通用 NLP 场景下降;垂直/小数据/结构化数据仍然关键。大模型 + Prompt 替代了大部分手工特征。
- F1 / Precision / Recall 的关系
- 思路:P=TP/(TP+FP), R=TP/(TP+FN), F1=2PR/(P+R) 调和平均;类别不均衡看 F1 比 Accuracy 准。
- 混淆矩阵的四个值
- 思路:TP(真正)/FN(假负)/FP(假正)/TN(真负);所有评估指标的基础。
- XGBoost / LightGBM 区别
- 思路:都是 GBDT;LGBM 用直方图 + Leaf-wise 生长,更快内存少;XGB 稳定久经考验。
- 监督 / 无监督 / 强化学习的区别
- 思路:有标签学(分类回归) / 无标签找结构(聚类降维) / 奖励信号学策略(游戏机器人)。
- K-Means 的原理和适用场景
- 思路:随机 K 个中心 → 分配点 → 更新中心 → 迭代收敛;适合凸形簇 + 数值特征 + 已知 K;先归一化,K 用肘部/Silhouette 定。
2、项目深挖 / 简历
- 介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目;按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
- 这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
- 选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
- 项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。
- 关键指标有哪些?北极星指标是什么
- 思路:北极星 = 真实业务指标(留存/转化/任务完成率),配代理指标(召回率/CTR);两者要能解释因果。
- 上线后效果怎么衡量
- 思路:A/B 实验 + 离线指标 + 用户反馈三件套;不要只说「反馈好」,要给数。
- 如果重做你会怎么做
- 思路:体现学习能力;选 1-2 个「现在视角看会做不同」的点(技术选型/数据策略)。
- 你在团队里的角色是什么
- 思路:STAR 法说清「我具体做了什么、对成果有什么影响」,别说「参与」。
- 和业务方怎么对齐的
- 思路:PRD → 关键指标对齐 → 双周 demo → 灰度;强调「提前对齐预期避免上线后扯皮」。
- 项目最后真的上线了吗
- 思路:诚实回答;没上线就讲「为什么没上线 + 学到什么」,别硬撑。
- 项目中怎么用的?
- 思路:结合自己项目场景讲具体用法 + 量化效果(降本/提效/指标变化)。
3、大模型基础 / 架构
- Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
- 自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
- RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
- MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
- GQA / MHA / MQA 的区别
- 思路:MHA 每头独立 KV;MQA 所有头共用 1 组 KV(省显存);GQA 折中分组共享。Llama2 起 GQA 主流。
- LayerNorm / RMSNorm 区别
- 思路:LN 减均值除标准差;RMSNorm 只除 RMS 不减均值,计算少 + 效果接近,Llama/PaLM 采用。
- 预训练 / 后训练 的区别
- 思路:预训练学语言+世界知识(无监督);后训练学指令遵循+安全(SFT/RLHF/DPO)。能力上限看预训练,可用性看后训练。
- Decoder-only 为什么成主流
- 思路:见上 Decoder-only 主流原因。
- 涌现能力是什么
- 思路:模型规模到一定阈值后突然出现的能力(ICL/CoT/多步推理);小模型上完全没有。
- 弱 AI vs 强 AI 的区别
- 思路:弱 AI=专用任务(现在所有 AI 都是);强 AI=AGI 通用智力,目前不存在。
- 为何现在的大模型大部分是 Decoder-only 结构?
- 思路:训练简单(单向)、推理统一(自回归)、scaling law 友好、能用同一架构做多任务。
- Encoder 编码器与 Decoder 掩码有什么区别?
- 思路:Encoder 双向看全文;Decoder 用 causal mask 只看前面 token,保证自回归性质。
- 为什么要进行 LN(LayerNorm)?
- 思路:稳定训练 + 加速收敛;Transformer 用 LN 不用 BN 是因为序列长度可变 + 跨样本统计无意义。
4、RAG / 检索
- 介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
- RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
- 文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
AIcoding笔试挑战杯福利 文章被收录于专栏
第一届牛客AI Coding笔试挑战被,报名+完赛选手即可获得 内包含以下福利: * 校招投递时间表 * 网申助手插件 * 简历模板包 * 各公司秋招笔试真题 * AI面经题库 * 本地终端部署 AI 教程