阿里通义实验室大模型算法一面面经
1.自我介绍
2. Lora 原理(核心是低秩分解:将原始权重更新近似为两个低秩矩阵乘积,减少参数量,保留主导方向,训练高效)
3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化 (1 优化优化器状态,2 优化梯度,3 切分参数,全面节省显存)
4. Qwen的模型结构是怎么样的,相比于 LLaMA, DeepSeek 有什么区别(Qwen采用GQA+SwiGLU+RMSNorm,和LLaMA架构非常相似,差异在训练数据和tokenizer中文支持更好;DeepSeek只用MoE/ MLA架构,Qwen系列主要是Dense模型)
5.怎么缓解大模型的幻觉问题(RAG,RLHF对齐,事实监督)
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点(MoE面临负载不均衡、训练不稳定问题;DeepSeekMoE通过细粒度专家和共享专家设计提升稳定性和效果)
7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择(FP16精度高但易溢出,BF16动态范围大;训练常用BF16混合精度,推理用INT8量化加速)
8.讲一下 RLHF 的流程,写一下 PPO 和 DPO 的 Loss 表达式(训练奖励模型后用PPO/DPO优化策略;PPO Loss: policy ratio + KL 约束/ DPO Loss: logit preference diff + sigmoid binary loss)
9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗(业界常用 RoPE 变体/ 滑动窗口注意力/ 稀疏注意力等;Qwen使用YaRN和窗口注意力扩展上下文)
10.开放题:你觉得目前大模型的上限在哪里(推理能力、长期记忆、具身交互和能耗效率,需要架构创新和多模态融合突破)
11.代码:152.乘积最大子数组