阿里大模型一面

岗位名称：大语言模型算法

面试时长：1h–1.5h

自评分：8/10

是否下一轮：是

模型架构与基础原理

目前主流大语言模型在架构设计上有哪些异同点？
（追问）Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别？
介绍一下大语言模型中的注意力机制，多头相比单头注意力有何优势？
（追问）如果减少头数会发生什么？是否一定性能下降？
什么是大语言模型的涌现能力？目前对该现象的研究有哪些发现？
（追问）涌现能力是否和模型规模线性相关？
什么是 Embedding？词嵌入和句嵌入有何不同？
（追问）Embedding 层是否会参与微调？为什么？
大语言模型中的 Tokenization 是如何工作的？不同模型的分词算法有何差异？
（追问）BPE 和 SentencePiece 的核心差异是什么？

Prompt Engineering 与 In-Context Learning

简述大语言模型中的 Prompt Engineering 技巧，如何设计有效的提示词提升模型输出质量？
（追问）如果 Prompt 很长但效果不好，通常从哪些方向排查？
对比 Zero-Shot、Few-Shot 和 In-Context Learning，它们在大语言模型中的应用场景和局限性分别是什么？
（追问）Few-Shot 示例顺序是否会影响结果？

训练方法与参数高效微调

什么是 LoRA？它在大语言模型微调中的优势和原理是什么？
（追问）LoRA 为什么只在某些矩阵上做低秩分解？
大语言模型的 RLHF 训练流程是什么？它存在哪些潜在风险？
（追问）奖励模型如果存在偏差会带来什么影响？
介绍一下大语言模型中的知识蒸馏，它如何用于压缩模型体积？
（追问）蒸馏过程中学生模型是否一定性能下降？
DeepSeek 优化了哪些？为什么不用 PPO，而是用 GRPO？
（追问）GRPO 相比 PPO 在训练稳定性上有什么变化？

推理机制与工程优化

对比大语言模型的增量推理和传统推理方式，增量推理的优势和实现难点是什么？
（追问）KV Cache 在增量推理中起什么作用？
大语言模型在推理时出现幻觉现象的原因是什么？有哪些缓解方法？
（追问）RAG 是否能彻底解决幻觉问题？
大语言模型的长文本处理能力有限，目前有哪些技术可以缓解这一问题？
（追问）扩展 RoPE 或位置编码会带来什么副作用？
什么是大语言模型的上下文窗口？扩展上下文窗口对模型性能有何影响？
（追问）上下文变长是否一定带来性能提升？

多模态大语言模型

目前多模态大语言模型是如何融合文本与图像信息的？
（追问）是通过投影到统一 embedding 空间，还是使用 cross-attention？各有什么差异？

评估体系与基准

如何评估大语言模型的性能？常见的评测指标和基准数据集有哪些？
（追问）Benchmark 是否能真实反映模型实际能力？（追问）如何设计一个内部评估体系？

系统能力与产品级理解

单个 LLM 能否帮助用户完成完整行程规划，比如从出行到酒店都订好票？
（追问）仅靠模型是否足够？还需要哪些系统能力支持？

项目与研究经历追问

过往项目细节追问。
（追问）为什么选择这个方法？是否对比过其他方案？
过往论文或实验经历。
（追问）实验设计思路是什么？
（追问）结果是否具有统计显著性？
（追问）如果结果不理想，你会如何调整？

#面试##面试问题记录##面经##春招##大模型#

技术必备题库文章被收录于专栏

带你复盘大厂后端和算法面试，拆解面试官到底想听啥

全部评论

推荐最新楼层

offer面试官

楼主

上海交通大学算法工程师

hi，小伙伴们～ 3月15日（本周日）20:00–21:00，我们会在小红书做一场直播，聊一聊： 1、大模型方向目前的就业机会 2、互联网大厂今年的 HC 情况 3、结合阿里大模型春招面试面经做一次详细拆解想了解大模型求职和面试准备的小伙伴可以来直播间一起交流～小红书账号：Offer面试官感兴趣的小伙伴不要错过哦～

点赞回复分享

发布于 03-11 10:18 上海