阿里大模型算法面经

一、算法手撕+八股
1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)
2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩
4. 多模态融合中 对比学习损失和重构损失如何加权?
5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度

二、项目深挖
1. 微调Qwen时发现验证集loss震荡的可能原因
2. 多工具调用中如何用DAG实现并行调度优化
3. 长文本推理的压缩方案 对比Sliding Window和NTK
4. 模型量化时遇到激活值异常溢出如何调试
5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉

三、场景设计
为智能客服设计多轮对话系统
全部评论

相关推荐

评论
点赞
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务