阿里大模型算法面经

一、算法手撕+八股
1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)
2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩
4. 多模态融合中 对比学习损失和重构损失如何加权?
5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度

二、项目深挖
1. 微调Qwen时发现验证集loss震荡的可能原因
2. 多工具调用中如何用DAG实现并行调度优化
3. 长文本推理的压缩方案 对比Sliding Window和NTK
4. 模型量化时遇到激活值异常溢出如何调试
5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉

三、场景设计
为智能客服设计多轮对话系统
全部评论

相关推荐

04-27 15:01
早稲田大学 Java
牛客72191338...:可能是时间点的问题,四月底机会确实会相对少点,但佬这个学历摆在这,会有机会的
简历中的项目经历要怎么写
点赞 评论 收藏
分享
评论
点赞
14
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务