AI大模型面试模拟拷打

2025届秋招可以说是大模型校招的元年,而且真的是大模型岗位最简单的一年(个人主观觉得);

虽然我的秋招岗位是嵌入式软件开发工程师,但是我读研毕业的研究方向有大模型啊,中间一些不区分岗位的公司面试也没少问我大模型的知识点,不耽误我梳理一些经典的面试拷打题目出来~

一、基础概念与模型架构

这些问题关注模型的基本原理、架构设计、以及不同类型模型的对比。

  1. 请简述Transformer的基本原理;
  2. 为什么Transformer的架构需要多头注意力机制?
  3. 为什么Transformer需要位置编码?
  4. 为什么transformer块使用LayerNorm而不是BatchNorm?
  5. 介绍一下post layer norm和pre layer norm的区别;
  6. 请简述GPT和BERT的区别;
  7. 讲一下GPT系列模型是如何演进的?
  8. 什么是prefix LM和causal LM的区别?
  9. 什么是LLMs复读机问题?
  10. 为什么会出现LLMs复读机问题?
  11. 如何缓解LLMs复读机问题?
  12. 你了解过什么是稀疏微调吗?
  13. LLM预训练阶段有哪几个关键步骤?

二、技术细节与优化

这些问题涉及了LLM的优化技术、量化方法、训练策略等。

  1. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?
  2. LLMs中,量化权重和量化激活的区别是什么?
  3. AWQ量化的步骤是什么?
  4. DeepSpeed推理对算子融合做了哪些优化?
  5. 简述一下FlashAttention的原理;
  6. PAGED Attention的原理是什么,解决了LLM中的什么问题?
  7. 矩阵乘法如何做数量并行?
  8. 如何缓解LLMs复读机问题?
  9. 如何评估大语言模型(LLMs)的性能?
  10. 为什么LLM的知识更新很困难?
  11. 你觉得哪些因素会导致LLM中的偏见?
  12. 如何减轻LLM中的“幻觉”现象?

三、语言模型的学习与微调

这些问题着重于LLM的训练方式、微调技术和应用。

  1. RLHF模型为什么会表现比SFT更好?
  2. 什么是奖励模型,奖励模型是否需要和基础模型一致?
  3. 奖励模型需要和基础模型一致吗?
  4. 如何解决人工产生的偏好数据集成本较高,很难量产问题?
  5. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
  6. 如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?
  7. 如何给LLM注入领域知识?
  8. 参数高效的微调(PEFT)有哪些方法?
  9. LORA微调相比于微调适配器或前缀微调有什么优势?

四、架构与推理框架

这些问题关注LLM的架构设计、推理效率以及分布式计算框架。

  1. 简述TPPO算法流程,它跟TRPO的区别是什么?
  2. 介绍一下GPipe推理框架;
  3. 什么是Kv cache技术,它具体是如何实现的?
  4. 大模型一般评测方法及其准则是什么?
  5. 为什么大模型推理时显存涨的那么多还一直占着?
  6. 大模型在GPU和CPU上的推理速度如何?
  7. 推理速度上,int8和fp16比起来怎么样?

五、检索与生成

这些问题涉及到生成与检索增强模型的结合以及特定技术的应用。

  1. 什么是检索增强生成(RAG)?
  2. RAG和微调的区别是什么?
  3. 什么是思维链(CoT)提示?
  4. 你觉得什么样的任务或领域适合用思维链提示?
  5. 什么是投机采样技术,请举例说明?

六、分词技术与编码

这些问题关注分词算法、位置编码技术以及优化策略。

  1. 你了解大型语言模型中的哪些分词技术?
  2. 什么是位置编码?
  3. 什么是绝对位置编码?
  4. 什么是相对位置编码?
  5. 旋转位置编码RoPE思路是什么?
  6. 旋转位置编码RoPE有什么优点?
  7. ALiBi(Attention with Linear Biases)思路是什么?
  8. ALiBi的偏置矩阵是什么?有什么作用?
  9. ALiBi有什么优点?

七、应用与评测

这些问题涉及模型的评估方法和实际应用中的挑战。

  1. 如何评估大语言模型(LLMs)的性能?
  2. 大模型的honest原则是如何实现的?
  3. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
  4. 如何让大模型处理更长的文本?
  5. 各个专长领域是否需要各自的大模型来服务?
  6. 如何让大模型输出格式化?
  7. 如果想要快速检验各种模型,该怎么办?

八、替代方案与挑战

这些问题探讨了与大模型相关的替代方案、挑战和改进方法。

  1. Langchain 有哪些替代方案?
  2. Langchain token计数有什么问题?如何解决?
  3. 目前主流的中文向量模型有哪些?
  4. 如何解决PPO训练中的资源瓶颈?
  5. 为什么现在的大模型大多是decoder-only的架构?
  6. 涌现能力(Emergent Abilities)是什么原因?

九、一些递进的提问方式举例

  1. 解释一下langchain Agent的概念。什么是LangChain中的Agent?请简述其作用与应用场景。
  2. llama输入句子长度理论上可以无限长吗?Llama模型的输入长度是否有上限?为什么会有这个限制?
  3. 目前主流的开源模型体系有哪些?你了解的主流开源大语言模型有哪些?它们各自的特点是什么?

十、总结

上面这些都是开胃菜,基本上学半个月基础知识就全能掌握了,远远达不到科研的水平,但适当延伸一下,应付今年的秋招,私以为是比较简单的,至于明年,真的不好预测,万一培训机构入场、大量学生换方向、批量生产“人才”,虽然门槛可能比研发要高,但耐不住人多,静观其变叭~

#牛客创作赏金赛##面试题刺客退退退#
全部评论
如果不是特定大模型的岗位,问题还是比较简单的,涉及知识点包括一些典型的Point,比如微调训练、Langchain、幻觉问题、GraphRAG、典型模型(比如llama、qwen、glm)使用、具体项目中用了哪些数据集、哪些模型、怎么微调、RAG之类的,就够了
4 回复 分享
发布于 2024-12-06 09:51 北京
谢谢哥
点赞 回复 分享
发布于 2024-12-06 10:17 山东

相关推荐

评论
14
150
分享

创作者周榜

更多
牛客网
牛客企业服务