AI Agent面经 2(持续更新)
Q1:prefix Decoder 和 causal Decoder 和 EncoderDecoder 区别是什么?
答案:prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别在于 attention mask不同:
- Encoder-Decoder:在输入上采用双向注意力,对问题的编码理解更充分。适用任务:在偏理解的 NLP 任务上效果好。缺点:在长文本生成任务上效果差,训练效率低。
- causal Decoder:自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的token才能看到前面的token的规则。适用任务:文本生成任务效果好。优点:训练效率高,zero-shot 能力更强,具有涌现能力。
- prefix Decoder:prefix部分的token互相能看到,causal Decoder 和 Encoder-Decoder 折中。缺点:训练效率低。
Q2:为何现在的大模型大部分是Decoder only结构?
答案:因为decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好。而encoderdecoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。
目前的Large LM的训练范式还是在大规模语料shang 做自监督学习,很显然zero-shot性能更好的decoder-only架构才能更好的利用这些无标注的数据。
大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题,这可能会削弱模型的表达能力。就生成任务而言,引入双向注意力并无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了。
Q3:大模型(LLMs)后面跟的 175B、60B、540B等指什么?
答案:这些一般指参数的个数,B是Billion(十亿)的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。
大模型、Agent面试八股全集 文章被收录于专栏
大模型面试,早已不只是会用 LangChain、会调 OpenAI API 那么简单。真正决定面试深度的,是你是否理解 Transformer、Prompt 工程、RAG 检索链路、Agent 规划与执行、工作流设计,以及复杂场景下的稳定性与工程落地问题。本专栏聚焦大模型与 Agent 开发面试高频八股,系统拆解核心概念、常见追问、项目回答思路,帮助你系统掌握核心考点,提升面试表达与项目答辩能力。
