1. 自我介绍,大概 2 分钟。2. 详细聊聊项目,比如损失函数是怎么设计的?3. 讲讲 LoRA 微调。4. 手撕:Multi-Head Attention (MHA)。5. MHA 里面除以根号 k 是干嘛的?6. 什么是梯度消失和梯度爆炸?怎么缓解?7. QKV 分别代表什么?说说你的理解。8. 如果 Q 和 K 变成同一个矩阵,会有什么影响?9. 除了 LoRA,还知道哪些微调方法?10. 实习时主要做 Agent 相关的是吧?简单问一下 RAG 和 CodeAct。11. 手撕:n 个长度为 m 的升序数组,找出 TopK。面试官提示用大根堆,但我用归并写的,也通过了。