面试官会追问的AI产品八股

分享点真干货，希望对大家有所帮助！ alt

面试加分项：能把一个概念"故事化、简洁地"讲出来，才算真懂；能背出定义只是表面记忆。

1. 大模型基础概念

概念	一句话理解	产品/面试角度
AGI 通用人工智能	像人一样无需专门训练就能跨场景完成复杂智力任务	当前大模型本质是"下一个词的统计预测"，离 AGI 仍有本质差距
LLM 大语言模型	基于 Transformer、海量文本训练的自回归模型	两阶段：预训练定能力上限，后训练定能否稳定服务用户
Foundation Model 基础模型	完成通用预训练、可作各类应用底座的模型	关键判断：何时直接调通用模型，何时要垂类微调
RAG 检索增强生成	生成前先从知识库检索相关内容再一起喂给模型	企业级最主流的知识注入方式，解决幻觉/知识过时/私有数据三大痛点；重点：召回优化、切片策略、RAG vs 微调选型
开源 vs 闭源	开源(Llama/Qwen/ChatGLM)可私有部署；闭源(GPT-4o/Claude/文心)以 API 为主	选型四维度：成本、数据安全、定制化、迭代效率
SLM 小语言模型	参数几十亿以下、为端侧资源受限场景优化	响应快、成本低、可离线；7B~14B 在垂直任务可超早期百亿模型
MoE 混合专家模型	内部多个"专家"网络，按需激活而非全部参与计算	性能不降、推理算力大降；直接拉低 API 成本，改变商业定价空间

2. 训练与对齐（八股高频区）

概念	一句话理解	关键点
Pre-Training 预训练	学几乎全部公开文本，定能力天花板	预训练没学会的，后续微调/RAG 都很难补
Post-Training 后训练	给"知识渊博但不懂人情世故"的模型做塑形	解决"会生成但不会协作"；主流：先 SFT 再 RLHF/DPO
SFT 监督微调	喂大量"指令-回答"配对数据	后训练第一步，教模型听懂指令、按预期格式输出
RLHF 人类反馈强化学习	标注员对多个回答排序→训奖励模型→PPO 优化	解决"答得好不好、合不合人心意"；效果最好但流程最复杂、成本极高
PPO 近端策略优化	RLHF 核心算法，每次只做小幅调整	防止模型为刷高分"走火入魔"导致能力断崖下跌
DPO 直接偏好优化	跳过奖励模型和强化学习，直接用偏好数据训练	成本/复杂度大降，中小团队对齐首选
GRPO 分组相对偏好优化	模型自己生成多答案→组内排序打分→自我对齐	2025 起头部公司主用；几乎摆脱人工标注，特别适合 Agent/代码/数学推理
RLAIF AI 反馈强化学习	用 AI 标注员替代人类做偏好评估	大降人力成本、提一致性；人类只做审核校准
Alignment 模型对齐	让输出符合人类价值观、安全规范、产品目标	不只技术问题，也是产品治理：审核+风控+兜底+反馈闭环
对齐税 Alignment Tax	为安全/对齐付出的能力损失	RLHF/DPO 会让原始推理力、创造力有所下降

3. Token 与上下文

概念	一句话理解	关键点
Token	模型处理文本的最小单位，也是行业计价单位	1 汉字≈1.3～1.5 token，1 英文词≈0.7～1；窗口/计费/速度都按它算
上下文窗口 Context Window	单次交互输入+输出 token 上限，模型"短期记忆"	越大成本指数升、延迟增、有"注意力稀释"；实际用到标称值 60%~70% 体验就开始下降
Embedding 向量嵌入	把文本/图片/音频转成可计算的数字向量	语义近则向量近；语义搜索、RAG、推荐、聚类的底层
上下文压缩	喂模型前过滤无关信息，只留最相关内容	降 token 成本 + 缓解注意力稀释
长上下文模型	支持十万~百万级 token 输入	适合整书/整仓库/会议记录；代价是成本飙升、变慢、注意力稀释

4. Agent 与提示工程（最高阶、面试重点）

概念	一句话理解	关键点
Agent 智能体	具备任务拆解、工具调用、记忆、自主执行的系统	本质不是"会聊天"而是"能行动"；流程：感知→理解目标→规划→调工具→执行→反馈
Function Calling 工具调用	模型判断何时调外部系统(搜索/DB/代码/API)并基于结果继续推理	设计点：触发逻辑、工具选择、失败兜底、多工具协同
ReAct（推理+行动）	在"推理"和"行动"间不断循环	现代 Agent 基础框架
Multi-Agent 多智能体	多个不同角色 Agent 分工协作	角色：规划/执行/评审/反思；能力强但有协调成本
Swarm 多智能体框架	轻量、易部署的多 Agent 标准框架	定义 Agent 间通信/协作/任务交接，适合企业级工作流
Agentic RL	面向 Agent 的强化学习，关注每一步行为是否合理	优化全过程决策能力，当前 Agent 核心方向
规划能力 Planning	把模糊大目标拆成可执行小任务并排序	Agent 区别于对话系统的关键，也是最大瓶颈
记忆机制 Memory	短期(上下文窗口)/工作(中间状态)/长期(向量库存偏好)	决定 AI 能否持续交互
反思机制 Reflection	输出后先自查自纠再返回	降错误率/幻觉，常见于代码生成、复杂推理
Prompt Engineering 提示工程	用优化指令提升输出质量	不只会写，要有方法论：角色设定、结构化、格式约束、Few-shot、评测迭代
CoT 思维链	引导模型一步步显式推理而非直接给答案	显著降推理错误率，适合法律/教育/金融
提示链 Prompt Chaining	把复杂任务拆成多个子 Prompt，前一个输出作下一个输入	比单个复杂 Prompt 更稳、更易调试
Few-shot 少样本	提示词给 2~5 个示例就学会任务模式	大模型涌现能力
Zero-shot 零样本	不给示例，仅自然语言描述即可完成	零样本越强 = 通用/泛化越强
In-Context Learning 上下文学习	不重训，靠提示词示例就学会新任务	Few-shot / Zero-shot 的基础
涌现能力 Emergence	参数/数据过阈值后突然获得小模型没有的能力	如逻辑推理、数学、少样本学习

5. 传统机器学习与 NLP（基础但常被追问）

NLP 自然语言处理：让计算机理解处理人类语言。传统能力包括：

分词 Tokenization：拆成最小单位 token
NER 命名实体识别：抽取人名/地名/时间/机构
文本分类：判断情感/意图/主题
文本摘要：提炼长文核心

概念	一句话理解
分类 vs 回归	分类预测离散标签(垃圾邮件/猫狗)；回归预测连续数值(房价/股价)
混淆矩阵	分类结果四象限(TP/FP/TN/FN)，是精确率/召回率/准确率的基础
训练/验证/测试集	60～80% 训练 / 10～20% 调参选模型 / 10~20% 评估泛化(不参与训练)
特征工程	从原始数据提取有用特征；大模型时代重要性降，但垂类小数据仍不可或缺
经典 ML 模型	逻辑回归(二分类/风控)、决策树(可解释)、随机森林/XGBoost/LightGBM(集成最常用)、K-Means(聚类/分群)
监督学习	用带标签数据训练，效果稳、易评估
无监督学习	无需标注，挖掘数据内在结构(聚类/异常检测)，成本低但效果通常弱
强化学习	通过试错+奖励机制学最优策略，用于游戏/机器人/自动驾驶/RLHF
Fine-tuning 微调	在预训练模型上用少量领域数据续训；适合长期稳定专业技能(代码/法律/医疗)，成本高、更新慢；主流是参数高效微调
过拟合	训练集完美、新数据差(数据太少/模型太复杂/训太久)
欠拟合	训练集本身就差(模型太简单/数据太少/训太短)
泛化能力	面对没见过的新数据的适应力，衡量模型真实价值的核心指标

6. 多模态与生成模型

概念	一句话理解	代表/要点
MLLM 多模态大模型	同时理解生成文本/图/音/视频	难点：模态间"信息对齐"和"深度交互"
T2I 文生图	文字→图像	Midjourney/SD/DALL·E 3；底层扩散模型
扩散模型 Diffusion	加噪→学去噪还原清晰图	比 GAN 更稳、质量更高、可控性强
T2V 文生视频	文字→视频	Sora/Runway/Pika/即梦；难点：时序一致性、动作控制、算力成本
OCR 光学字符识别	图片/扫描件→可编辑文本	已与大模型结合，能识别表格/公式/版式
目标检测	识别物体+框出位置大小	自动驾驶/安防/工业质检
ASR 语音识别	语音→文字	竞争力：噪声准确率、方言口音、低延迟
TTS 文本转语音	文字→自然语音	关注音色拟人度、情感、声音克隆合规风险
GAN 生成对抗网络	生成器 vs 判别器对抗训练	曾主导图像生成，现被扩散模型替代
VAE 变分自编码器	压到低维潜在空间再重建	质量较弱但训练稳、速度快
ViT Vision Transformer	把图切成 Patch 用自注意力学关系	当前多模态视觉理解的重要基础
DiT Diffusion Transformer	用 Transformer 替代扩散模型的 U-Net	Sora/即梦等高质量视频的核心路线
数字人	形象生成+语音合成+表情驱动+对话	直播/客服/虚拟偶像/教培
AIGC	AI 生成内容统称	核心问题转向质量、版权、合规伦理

7. 采样控制与对话系统参数

概念	一句话理解
Temperature 温度	控制随机性/创造性(0~2)。低=保守稳定(客服/代码)，高=发散创意(文案/头脑风暴)，0=每次完全相同
Top P / Top K	Top K 只从概率最高 K 个词选；Top P 从累计概率达 P 的最小词集选；常配合 Temperature，取更严格者
多轮对话	记住历史、维持话题一致；挑战：管理增长上下文、控 token、话题切换、记忆衰减
意图识别	识别用户真正想完成的任务；大模型已具通用意图理解，无需单独训分类器
槽位填充 Slot Filling	收集完成任务必需的关键参数(出发地/时间/人数)；与意图识别共同构成任务型对话基础
知识图谱	"实体-关系"结构化组织知识；与 RAG 结合提升深度/逻辑关联，适合金融/医疗/法律

8. AI 产品方法论（产品岗核心）

概念	一句话理解	关键差异
AI 产品生命周期	需求&可行性→规划→模型选型→能力设计→Prompt/RAG/微调→开发联调→效果评估→测试→灰度上线→监控→迭代	全流程
模型选型	定能力上限和成本结构的最关键一步	四维度：开源/闭源、云/端、通用/垂类、Prompt/RAG/微调
MVP	用最小代价验证"AI 能否真解决用户真实问题"	核心可能只是一个好 Prompt + 一条工作流 + 一个明确垂直场景
PMF 产品市场匹配	看真实行为数据，不看口头反馈	"好玩"≠真需求；看频率、复访、付费转化、30 天+留存
A/B Testing	不止测 UI，还要测 Prompt/参数/Temperature/RAG 策略/模型对比	输出随机性 → 需更大样本量
AI 效果评估体系	客观+主观双轨	客观：准确率/召回率/F1/幻觉率/延迟/Token 成本/任务完成率；主观：满意度/相关性/流畅度/拟人感/一致性
冷启动	没数据→没好模型→没用户→没数据的鸡蛋问题	破局：先用通用模型上线获客 / 人工种子数据 / 先给非 AI 价值再叠 AI
迭代优化	AI 产品 70%+ 是数据和模型的迭代而非功能更新	基模迭代+Prompt 优化+RAG 更新+反馈回流闭环
异常监控与告警	监控幻觉率、延迟、API 失败率、敏感内容、token 飙升	输出不可预测，需重点防
兜底策略	模型能力不足时的最后防线	固定安全回复/转人工/敏感过滤/降级到规则引擎
Hallucination 幻觉	生成看似合理实则错误/不存在的信息	根因:概率生成而非检索事实；无法根除，靠 Prompt 约束+RAG+校验+反馈+人审
数据飞轮	更多用户→更多数据→更好模型→更好体验→更多用户	判断能否建长期壁垒的关键

9. 商业模式与核心指标

模式：

模式	含义	商业要点
MaaS 模型即服务	API/SDK 提供模型能力，按 token/调用量收费	平衡训练推理成本、定价、留存
PaaS 平台即服务	AI 开发训练部署全流程工具平台(百炼/千帆)	卖的是工具链和工程效率
SaaS 软件即服务	封装成成品软件(ChatGPT/Claude/Notion AI)	与传统 SaaS 最大差异:成本与使用量强相关
AaaS 智能体即服务	直接提供完成复杂任务的 Agent	客户不开发，调现成智能体(合同审核/数据分析)
订阅制	按月/年固定收费，AI SaaS 主流	边际成本不为零，需设档位上限+超额计费
Token 计费	按实际消耗 token 收费，MaaS 标准	公平但有"账单惊吓"，需透明+预警+批量折扣
按次计费	按单次生成收费，常见于文生图/视频/3D	单次成本高、频率低，不适合订阅
私有化部署	模型系统部署在客户本地/私有云，数据不出网	金融/政务/医疗/军工硬需求；缺点:成本高、维护复杂、迭代慢
定制化开发	针对大客户微调+流程定制，项目制收费	满足复杂需求但周期长、难标准化、难规模化

指标：

指标	含义	标准/要点
LTV 用户生命周期价值	用户全周期带来的总收益	衡量长期盈利能力
CAC 获客成本	获取一个付费用户的总营销销售成本	健康标准 LTV/CAC > 3
ROI 投入产出比	衡量项目商业价值	从三维度量化:降本/增效/新增收入
DAU/MAU	日活/月活	高 DAU = 更多反馈数据 → 数据-模型-体验正循环
Retention 留存率	是否持续使用	AI 易高初活但新鲜感过后留存掉；长期价值看是否融入日常工作流

10. 市场、竞争与部署前沿

概念	一句话理解
垂类 AI	聚焦特定行业(法律/医疗/金融/工业)；核心竞争力是行业理解+独有数据+流程适配+合规，而非通用模型力
ToC / ToB / ToG	C 端拼体验增长传播；B 端拼降本增效 ROI 服务；G 端拼数据安全合规稳定
护城河	由强到弱:数据壁垒 > 场景壁垒 > 生态壁垒 > 技术壁垒(通用模型趋同后纯技术难维持)
CSM 客户成功	ToB 能否持续盈利的关键岗;帮客户用起来、实现价值才会续费增购
端侧 AI	模型跑在本地设备;优势低延迟/隐私/离线,受限于算力只能跑小模型
端云协同 Hybrid	简单/敏感任务在端侧,复杂任务给云端;未来主流架构
具身智能 Embodied AI	能感知并与物理世界交互(机器人/自动驾驶/机械臂);从"能说"到"能做"
AI4S（AI for Science）	用 AI 加速科研;典型 AlphaFold 蛋白质结构预测
模型量化 Quantization	降参数精度(32→16/8/4 位)减体积、加速、降本;端侧部署核心手段
模型蒸馏 Distillation	大模型(教师)指导小模型(学生);让小模型接近大模型能力
XAI 可解释 AI	让模型解释决策,解决黑箱;金融/医疗/司法合规硬需求,目前发展有限
联邦学习	多方不共享原始数据、只传模型参数协同训练;适合医疗/金融
隐私计算	"数据可用不可见"体系:联邦学习+差分隐私+同态加密+安全多方计算
模型可观测性	记录每次调用输入输出参数成本延迟反馈,支持全链路追踪;迭代前提
模型缓存	缓存常见问答结果,相似问题直接返回;可降 30%~70% 调用成本
模型越狱	用精心设计提示词绕过安全对齐,诱导有害输出
AI 偏见 Bias	从训练数据学到社会偏见;招聘/信贷/医疗等高风险场景有公平性与法律风险
AIGC 水印	给 AI 生成内容加可追溯标识;主流产品已内置
开源 AI 生态	以 Llama 系列、Hugging Face 为核心,大降研发门槛;选型看能力/成本/可控性/数据安全/社区成熟度

11. 工具、框架与新范式

概念	一句话理解
LM Harness	最主流的大模型自动化评测框架,统一标准测试集,做横向对比/基准评估,模型选型必备
Hermes	Nous Research 基于 Llama 优化的顶级开源系列,强化 Agent/工具调用/复杂任务,适合私有部署+深度定制
OpenClaw	2025 起受关注的开源 AI 智能体框架(原文称国内俗称"小龙虾");连接大模型理解/规划能力与各数字系统执行能力,代表 AI 从对话走向主动操作
ReAct	见第 4 节,Agent 推理+行动循环基础框架
Skill	面向 Agent 的标准化能力封装(Prompt 模板+工具逻辑+工作流+输出规范),让 Agent 像人一样扩展能力
Skill Store	围绕 Skill 的分发交易体系,类似应用商店但对象是 AI 能力;未来 Agent 生态基础设施
Vibe Coding	2025~2026 新型 AI 编程范式;强调意图理解,用自然语言模糊描述效果,AI 自动完成设计/生成/调试/部署全流程
合成数据	大模型生成的高质量标注数据,解决垂类冷启动数据不足;先合成微调再用真实数据迭代

12. 行业黑话速记（交流/面试听得懂）

黑话	意思
对齐	产品语境:团队目标方案预期一致;模型语境:输出符合价值观/安全/产品目标
抓手	推动增长或落地的核心切入点(最有效、最易突破的那个点)
闭环	输入→反馈→优化的可持续循环(典型:用户反馈→数据回流→模型优化→体验提升)
体感	用户对交互响应的主观感受(速度/流畅/理解/智能感)
赛道	细分方向/市场(AI 编程、AI 教育、AI 视频、Agent)
打法	增长/商业化/竞争的具体策略
壁垒	难被复制的核心竞争力(数据 > 场景 > 生态 > 技术)
落地	把技术变成稳定可用、能产生商业价值的产品("能演示"≠"能落地")
赋能	用 AI 提升传统行业效率(赋能金融/医疗/制造)
垂类	聚焦特定行业/场景的细分方向(与通用相对)
泛化	面对新数据/新场景的适应力
调优	对 Prompt/参数/RAG/工作流的持续优化
兜底	AI 无法稳定完成时的风险控制(固定回复/转人工/降级规则)
跑通	验证核心业务链路成立(体验/商业模式/增长路径)
降本增效	ToB AI 最核心价值主张
黑箱	模型决策逻辑不透明,XAI 要解决的核心
炼丹	模型训练靠试验+经验+运气的戏称
咒语	Prompt 的戏称,强调好 Prompt 的影响
平替	用更低成本方案替代昂贵方案(7B 替 GPT-3.5,国产 API 替 GPT-4o)
端到端	输入到输出全流程自动,中间无人工干预
开箱即用	拿到手即用,无需复杂配置开发