面试官会追问的AI产品八股
分享点真干货,希望对大家有所帮助!
面试加分项:能把一个概念"故事化、简洁地"讲出来,才算真懂;能背出定义只是表面记忆。
1. 大模型基础概念
| 概念 | 一句话理解 | 产品/面试角度 |
|---|---|---|
| AGI 通用人工智能 | 像人一样无需专门训练就能跨场景完成复杂智力任务 | 当前大模型本质是"下一个词的统计预测",离 AGI 仍有本质差距 |
| LLM 大语言模型 | 基于 Transformer、海量文本训练的自回归模型 | 两阶段:预训练定能力上限,后训练定能否稳定服务用户 |
| Foundation Model 基础模型 | 完成通用预训练、可作各类应用底座的模型 | 关键判断:何时直接调通用模型,何时要垂类微调 |
| RAG 检索增强生成 | 生成前先从知识库检索相关内容再一起喂给模型 | 企业级最主流的知识注入方式,解决幻觉/知识过时/私有数据三大痛点;重点:召回优化、切片策略、RAG vs 微调选型 |
| 开源 vs 闭源 | 开源(Llama/Qwen/ChatGLM)可私有部署;闭源(GPT-4o/Claude/文心)以 API 为主 | 选型四维度:成本、数据安全、定制化、迭代效率 |
| SLM 小语言模型 | 参数几十亿以下、为端侧资源受限场景优化 | 响应快、成本低、可离线;7B~14B 在垂直任务可超早期百亿模型 |
| MoE 混合专家模型 | 内部多个"专家"网络,按需激活而非全部参与计算 | 性能不降、推理算力大降;直接拉低 API 成本,改变商业定价空间 |
2. 训练与对齐(八股高频区)
| 概念 | 一句话理解 | 关键点 |
|---|---|---|
| Pre-Training 预训练 | 学几乎全部公开文本,定能力天花板 | 预训练没学会的,后续微调/RAG 都很难补 |
| Post-Training 后训练 | 给"知识渊博但不懂人情世故"的模型做塑形 | 解决"会生成但不会协作";主流:先 SFT 再 RLHF/DPO |
| SFT 监督微调 | 喂大量"指令-回答"配对数据 | 后训练第一步,教模型听懂指令、按预期格式输出 |
| RLHF 人类反馈强化学习 | 标注员对多个回答排序→训奖励模型→PPO 优化 | 解决"答得好不好、合不合人心意";效果最好但流程最复杂、成本极高 |
| PPO 近端策略优化 | RLHF 核心算法,每次只做小幅调整 | 防止模型为刷高分"走火入魔"导致能力断崖下跌 |
| DPO 直接偏好优化 | 跳过奖励模型和强化学习,直接用偏好数据训练 | 成本/复杂度大降,中小团队对齐首选 |
| GRPO 分组相对偏好优化 | 模型自己生成多答案→组内排序打分→自我对齐 | 2025 起头部公司主用;几乎摆脱人工标注,特别适合 Agent/代码/数学推理 |
| RLAIF AI 反馈强化学习 | 用 AI 标注员替代人类做偏好评估 | 大降人力成本、提一致性;人类只做审核校准 |
| Alignment 模型对齐 | 让输出符合人类价值观、安全规范、产品目标 | 不只技术问题,也是产品治理:审核+风控+兜底+反馈闭环 |
| 对齐税 Alignment Tax | 为安全/对齐付出的能力损失 | RLHF/DPO 会让原始推理力、创造力有所下降 |
3. Token 与上下文
| 概念 | 一句话理解 | 关键点 |
|---|---|---|
| Token | 模型处理文本的最小单位,也是行业计价单位 | 1 汉字≈1.3~1.5 token,1 英文词≈0.7~1;窗口/计费/速度都按它算 |
| 上下文窗口 Context Window | 单次交互输入+输出 token 上限,模型"短期记忆" | 越大成本指数升、延迟增、有"注意力稀释";实际用到标称值 60%~70% 体验就开始下降 |
| Embedding 向量嵌入 | 把文本/图片/音频转成可计算的数字向量 | 语义近则向量近;语义搜索、RAG、推荐、聚类的底层 |
| 上下文压缩 | 喂模型前过滤无关信息,只留最相关内容 | 降 token 成本 + 缓解注意力稀释 |
| 长上下文模型 | 支持十万~百万级 token 输入 | 适合整书/整仓库/会议记录;代价是成本飙升、变慢、注意力稀释 |
4. Agent 与提示工程(最高阶、面试重点)
| 概念 | 一句话理解 | 关键点 |
|---|---|---|
| Agent 智能体 | 具备任务拆解、工具调用、记忆、自主执行的系统 | 本质不是"会聊天"而是"能行动";流程:感知→理解目标→规划→调工具→执行→反馈 |
| Function Calling 工具调用 | 模型判断何时调外部系统(搜索/DB/代码/API)并基于结果继续推理 | 设计点:触发逻辑、工具选择、失败兜底、多工具协同 |
| ReAct(推理+行动) | 在"推理"和"行动"间不断循环 | 现代 Agent 基础框架 |
| Multi-Agent 多智能体 | 多个不同角色 Agent 分工协作 | 角色:规划/执行/评审/反思;能力强但有协调成本 |
| Swarm 多智能体框架 | 轻量、易部署的多 Agent 标准框架 | 定义 Agent 间通信/协作/任务交接,适合企业级工作流 |
| Agentic RL | 面向 Agent 的强化学习,关注每一步行为是否合理 | 优化全过程决策能力,当前 Agent 核心方向 |
| 规划能力 Planning | 把模糊大目标拆成可执行小任务并排序 | Agent 区别于对话系统的关键,也是最大瓶颈 |
| 记忆机制 Memory | 短期(上下文窗口)/工作(中间状态)/长期(向量库存偏好) | 决定 AI 能否持续交互 |
| 反思机制 Reflection | 输出后先自查自纠再返回 | 降错误率/幻觉,常见于代码生成、复杂推理 |
| Prompt Engineering 提示工程 | 用优化指令提升输出质量 | 不只会写,要有方法论:角色设定、结构化、格式约束、Few-shot、评测迭代 |
| CoT 思维链 | 引导模型一步步显式推理而非直接给答案 | 显著降推理错误率,适合法律/教育/金融 |
| 提示链 Prompt Chaining | 把复杂任务拆成多个子 Prompt,前一个输出作下一个输入 | 比单个复杂 Prompt 更稳、更易调试 |
| Few-shot 少样本 | 提示词给 2~5 个示例就学会任务模式 | 大模型涌现能力 |
| Zero-shot 零样本 | 不给示例,仅自然语言描述即可完成 | 零样本越强 = 通用/泛化越强 |
| In-Context Learning 上下文学习 | 不重训,靠提示词示例就学会新任务 | Few-shot / Zero-shot 的基础 |
| 涌现能力 Emergence | 参数/数据过阈值后突然获得小模型没有的能力 | 如逻辑推理、数学、少样本学习 |
5. 传统机器学习与 NLP(基础但常被追问)
NLP 自然语言处理:让计算机理解处理人类语言。传统能力包括:
- 分词 Tokenization:拆成最小单位 token
- NER 命名实体识别:抽取人名/地名/时间/机构
- 文本分类:判断情感/意图/主题
- 文本摘要:提炼长文核心
| 概念 | 一句话理解 |
|---|---|
| 分类 vs 回归 | 分类预测离散标签(垃圾邮件/猫狗);回归预测连续数值(房价/股价) |
| 混淆矩阵 | 分类结果四象限(TP/FP/TN/FN),是精确率/召回率/准确率的基础 |
| 训练/验证/测试集 | 60~80% 训练 / 10~20% 调参选模型 / 10~20% 评估泛化(不参与训练) |
| 特征工程 | 从原始数据提取有用特征;大模型时代重要性降,但垂类小数据仍不可或缺 |
| 经典 ML 模型 | 逻辑回归(二分类/风控)、决策树(可解释)、随机森林/XGBoost/LightGBM(集成最常用)、K-Means(聚类/分群) |
| 监督学习 | 用带标签数据训练,效果稳、易评估 |
| 无监督学习 | 无需标注,挖掘数据内在结构(聚类/异常检测),成本低但效果通常弱 |
| 强化学习 | 通过试错+奖励机制学最优策略,用于游戏/机器人/自动驾驶/RLHF |
| Fine-tuning 微调 | 在预训练模型上用少量领域数据续训;适合长期稳定专业技能(代码/法律/医疗),成本高、更新慢;主流是参数高效微调 |
| 过拟合 | 训练集完美、新数据差(数据太少/模型太复杂/训太久) |
| 欠拟合 | 训练集本身就差(模型太简单/数据太少/训太短) |
| 泛化能力 | 面对没见过的新数据的适应力,衡量模型真实价值的核心指标 |
6. 多模态与生成模型
| 概念 | 一句话理解 | 代表/要点 |
|---|---|---|
| MLLM 多模态大模型 | 同时理解生成文本/图/音/视频 | 难点:模态间"信息对齐"和"深度交互" |
| T2I 文生图 | 文字→图像 | Midjourney/SD/DALL·E 3;底层扩散模型 |
| 扩散模型 Diffusion | 加噪→学去噪还原清晰图 | 比 GAN 更稳、质量更高、可控性强 |
| T2V 文生视频 | 文字→视频 | Sora/Runway/Pika/即梦;难点:时序一致性、动作控制、算力成本 |
| OCR 光学字符识别 | 图片/扫描件→可编辑文本 | 已与大模型结合,能识别表格/公式/版式 |
| 目标检测 | 识别物体+框出位置大小 | 自动驾驶/安防/工业质检 |
| ASR 语音识别 | 语音→文字 | 竞争力:噪声准确率、方言口音、低延迟 |
| TTS 文本转语音 | 文字→自然语音 | 关注音色拟人度、情感、声音克隆合规风险 |
| GAN 生成对抗网络 | 生成器 vs 判别器对抗训练 | 曾主导图像生成,现被扩散模型替代 |
| VAE 变分自编码器 | 压到低维潜在空间再重建 | 质量较弱但训练稳、速度快 |
| ViT Vision Transformer | 把图切成 Patch 用自注意力学关系 | 当前多模态视觉理解的重要基础 |
| DiT Diffusion Transformer | 用 Transformer 替代扩散模型的 U-Net | Sora/即梦等高质量视频的核心路线 |
| 数字人 | 形象生成+语音合成+表情驱动+对话 | 直播/客服/虚拟偶像/教培 |
| AIGC | AI 生成内容统称 | 核心问题转向质量、版权、合规伦理 |
7. 采样控制与对话系统参数
| 概念 | 一句话理解 |
|---|---|
| Temperature 温度 | 控制随机性/创造性(0~2)。低=保守稳定(客服/代码),高=发散创意(文案/头脑风暴),0=每次完全相同 |
| Top P / Top K | Top K 只从概率最高 K 个词选;Top P 从累计概率达 P 的最小词集选;常配合 Temperature,取更严格者 |
| 多轮对话 | 记住历史、维持话题一致;挑战:管理增长上下文、控 token、话题切换、记忆衰减 |
| 意图识别 | 识别用户真正想完成的任务;大模型已具通用意图理解,无需单独训分类器 |
| 槽位填充 Slot Filling | 收集完成任务必需的关键参数(出发地/时间/人数);与意图识别共同构成任务型对话基础 |
| 知识图谱 | "实体-关系"结构化组织知识;与 RAG 结合提升深度/逻辑关联,适合金融/医疗/法律 |
8. AI 产品方法论(产品岗核心)
| 概念 | 一句话理解 | 关键差异 |
|---|---|---|
| AI 产品生命周期 | 需求&可行性→规划→模型选型→能力设计→Prompt/RAG/微调→开发联调→效果评估→测试→灰度上线→监控→迭代 | 全流程 |
| 模型选型 | 定能力上限和成本结构的最关键一步 | 四维度:开源/闭源、云/端、通用/垂类、Prompt/RAG/微调 |
| MVP | 用最小代价验证"AI 能否真解决用户真实问题" | 核心可能只是一个好 Prompt + 一条工作流 + 一个明确垂直场景 |
| PMF 产品市场匹配 | 看真实行为数据,不看口头反馈 | "好玩"≠真需求;看频率、复访、付费转化、30 天+留存 |
| A/B Testing | 不止测 UI,还要测 Prompt/参数/Temperature/RAG 策略/模型对比 | 输出随机性 → 需更大样本量 |
| AI 效果评估体系 | 客观+主观双轨 | 客观:准确率/召回率/F1/幻觉率/延迟/Token 成本/任务完成率;主观:满意度/相关性/流畅度/拟人感/一致性 |
| 冷启动 | 没数据→没好模型→没用户→没数据 的鸡蛋问题 | 破局:先用通用模型上线获客 / 人工种子数据 / 先给非 AI 价值再叠 AI |
| 迭代优化 | AI 产品 70%+ 是数据和模型的迭代而非功能更新 | 基模迭代+Prompt 优化+RAG 更新+反馈回流闭环 |
| 异常监控与告警 | 监控幻觉率、延迟、API 失败率、敏感内容、token 飙升 | 输出不可预测,需重点防 |
| 兜底策略 | 模型能力不足时的最后防线 | 固定安全回复/转人工/敏感过滤/降级到规则引擎 |
| Hallucination 幻觉 | 生成看似合理实则错误/不存在的信息 | 根因:概率生成而非检索事实;无法根除,靠 Prompt 约束+RAG+校验+反馈+人审 |
| 数据飞轮 | 更多用户→更多数据→更好模型→更好体验→更多用户 | 判断能否建长期壁垒的关键 |
9. 商业模式与核心指标
模式:
| 模式 | 含义 | 商业要点 |
|---|---|---|
| MaaS 模型即服务 | API/SDK 提供模型能力,按 token/调用量收费 | 平衡训练推理成本、定价、留存 |
| PaaS 平台即服务 | AI 开发训练部署全流程工具平台(百炼/千帆) | 卖的是工具链和工程效率 |
| SaaS 软件即服务 | 封装成成品软件(ChatGPT/Claude/Notion AI) | 与传统 SaaS 最大差异:成本与使用量强相关 |
| AaaS 智能体即服务 | 直接提供完成复杂任务的 Agent | 客户不开发,调现成智能体(合同审核/数据分析) |
| 订阅制 | 按月/年固定收费,AI SaaS 主流 | 边际成本不为零,需设档位上限+超额计费 |
| Token 计费 | 按实际消耗 token 收费,MaaS 标准 | 公平但有"账单惊吓",需透明+预警+批量折扣 |
| 按次计费 | 按单次生成收费,常见于文生图/视频/3D | 单次成本高、频率低,不适合订阅 |
| 私有化部署 | 模型系统部署在客户本地/私有云,数据不出网 | 金融/政务/医疗/军工硬需求;缺点:成本高、维护复杂、迭代慢 |
| 定制化开发 | 针对大客户微调+流程定制,项目制收费 | 满足复杂需求但周期长、难标准化、难规模化 |
指标:
| 指标 | 含义 | 标准/要点 |
|---|---|---|
| LTV 用户生命周期价值 | 用户全周期带来的总收益 | 衡量长期盈利能力 |
| CAC 获客成本 | 获取一个付费用户的总营销销售成本 | 健康标准 LTV/CAC > 3 |
| ROI 投入产出比 | 衡量项目商业价值 | 从三维度量化:降本/增效/新增收入 |
| DAU/MAU | 日活/月活 | 高 DAU = 更多反馈数据 → 数据-模型-体验正循环 |
| Retention 留存率 | 是否持续使用 | AI 易高初活但新鲜感过后留存掉;长期价值看是否融入日常工作流 |
10. 市场、竞争与部署前沿
| 概念 | 一句话理解 |
|---|---|
| 垂类 AI | 聚焦特定行业(法律/医疗/金融/工业);核心竞争力是行业理解+独有数据+流程适配+合规,而非通用模型力 |
| ToC / ToB / ToG | C 端拼体验增长传播;B 端拼降本增效 ROI 服务;G 端拼数据安全合规稳定 |
| 护城河 | 由强到弱:数据壁垒 > 场景壁垒 > 生态壁垒 > 技术壁垒(通用模型趋同后纯技术难维持) |
| CSM 客户成功 | ToB 能否持续盈利的关键岗;帮客户用起来、实现价值才会续费增购 |
| 端侧 AI | 模型跑在本地设备;优势低延迟/隐私/离线,受限于算力只能跑小模型 |
| 端云协同 Hybrid | 简单/敏感任务在端侧,复杂任务给云端;未来主流架构 |
| 具身智能 Embodied AI | 能感知并与物理世界交互(机器人/自动驾驶/机械臂);从"能说"到"能做" |
| AI4S(AI for Science) | 用 AI 加速科研;典型 AlphaFold 蛋白质结构预测 |
| 模型量化 Quantization | 降参数精度(32→16/8/4 位)减体积、加速、降本;端侧部署核心手段 |
| 模型蒸馏 Distillation | 大模型(教师)指导小模型(学生);让小模型接近大模型能力 |
| XAI 可解释 AI | 让模型解释决策,解决黑箱;金融/医疗/司法合规硬需求,目前发展有限 |
| 联邦学习 | 多方不共享原始数据、只传模型参数协同训练;适合医疗/金融 |
| 隐私计算 | "数据可用不可见"体系:联邦学习+差分隐私+同态加密+安全多方计算 |
| 模型可观测性 | 记录每次调用输入输出参数成本延迟反馈,支持全链路追踪;迭代前提 |
| 模型缓存 | 缓存常见问答结果,相似问题直接返回;可降 30%~70% 调用成本 |
| 模型越狱 | 用精心设计提示词绕过安全对齐,诱导有害输出 |
| AI 偏见 Bias | 从训练数据学到社会偏见;招聘/信贷/医疗等高风险场景有公平性与法律风险 |
| AIGC 水印 | 给 AI 生成内容加可追溯标识;主流产品已内置 |
| 开源 AI 生态 | 以 Llama 系列、Hugging Face 为核心,大降研发门槛;选型看能力/成本/可控性/数据安全/社区成熟度 |
11. 工具、框架与新范式
| 概念 | 一句话理解 |
|---|---|
| LM Harness | 最主流的大模型自动化评测框架,统一标准测试集,做横向对比/基准评估,模型选型必备 |
| Hermes | Nous Research 基于 Llama 优化的顶级开源系列,强化 Agent/工具调用/复杂任务,适合私有部署+深度定制 |
| OpenClaw | 2025 起受关注的开源 AI 智能体框架(原文称国内俗称"小龙虾");连接大模型理解/规划能力与各数字系统执行能力,代表 AI 从对话走向主动操作 |
| ReAct | 见第 4 节,Agent 推理+行动循环基础框架 |
| Skill | 面向 Agent 的标准化能力封装(Prompt 模板+工具逻辑+工作流+输出规范),让 Agent 像人一样扩展能力 |
| Skill Store | 围绕 Skill 的分发交易体系,类似应用商店但对象是 AI 能力;未来 Agent 生态基础设施 |
| Vibe Coding | 2025~2026 新型 AI 编程范式;强调意图理解,用自然语言模糊描述效果,AI 自动完成设计/生成/调试/部署全流程 |
| 合成数据 | 大模型生成的高质量标注数据,解决垂类冷启动数据不足;先合成微调再用真实数据迭代 |
12. 行业黑话速记(交流/面试听得懂)
| 黑话 | 意思 |
|---|---|
| 对齐 | 产品语境:团队目标方案预期一致;模型语境:输出符合价值观/安全/产品目标 |
| 抓手 | 推动增长或落地的核心切入点(最有效、最易突破的那个点) |
| 闭环 | 输入→反馈→优化的可持续循环(典型:用户反馈→数据回流→模型优化→体验提升) |
| 体感 | 用户对交互响应的主观感受(速度/流畅/理解/智能感) |
| 赛道 | 细分方向/市场(AI 编程、AI 教育、AI 视频、Agent) |
| 打法 | 增长/商业化/竞争的具体策略 |
| 壁垒 | 难被复制的核心竞争力(数据 > 场景 > 生态 > 技术) |
| 落地 | 把技术变成稳定可用、能产生商业价值的产品("能演示"≠"能落地") |
| 赋能 | 用 AI 提升传统行业效率(赋能金融/医疗/制造) |
| 垂类 | 聚焦特定行业/场景的细分方向(与通用相对) |
| 泛化 | 面对新数据/新场景的适应力 |
| 调优 | 对 Prompt/参数/RAG/工作流的持续优化 |
| 兜底 | AI 无法稳定完成时的风险控制(固定回复/转人工/降级规则) |
| 跑通 | 验证核心业务链路成立(体验/商业模式/增长路径) |
| 降本增效 | ToB AI 最核心价值主张 |
| 黑箱 | 模型决策逻辑不透明,XAI 要解决的核心 |
| 炼丹 | 模型训练靠试验+经验+运气的戏称 |
| 咒语 | Prompt 的戏称,强调好 Prompt 的影响 |
| 平替 | 用更低成本方案替代昂贵方案(7B 替 GPT-3.5,国产 API 替 GPT-4o) |
| 端到端 | 输入到输出全流程自动,中间无人工干预 |
| 开箱即用 | 拿到手即用,无需复杂配置开发 |
13. 弱/强 AI 与决策式/生成式(补充分类)
- 弱 AI(专用):只能做特定领域任务(语音/图像/下棋)。现在所有 AI 含大模型都是弱 AI。
- 强 AI(即 AGI):能像人完成任何智力任务,目前不存在。
- 决策式 AI:根据输入做判断/决策(推荐/风控/人脸),输出是分类结果或数值。
- 生成式 AI:生成全新内容(文/图/视频/音频),输出是之前不存在的数据。
查看5道真题和解析