阿里淘工厂大模型一面-秋招面经
1.实习介绍
2.八股:LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3.八股:推导MoE架构的负载均衡损失函数,如何避免专家坍缩
4.八股:多模态融合中 对比学习损失和重构损失如何加权?
5.八股:解释KV Cache的内存瓶颈 推导多头注意力计算复杂度
6.项目:微调Qwen时发现验证集loss震荡的可能原因
7.项目:多工具调用中如何用DAG实现并行调度优化
8.项目:长文本推理的压缩方案 对比Sliding Window和NTK
9.项目:模型量化时遇到激活值异常溢出如何调试
10.项目:自主构建的评估体系里如何分离知识幻觉与推理幻觉
11.代码题:lc39 组合总和
2.八股:LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3.八股:推导MoE架构的负载均衡损失函数,如何避免专家坍缩
4.八股:多模态融合中 对比学习损失和重构损失如何加权?
5.八股:解释KV Cache的内存瓶颈 推导多头注意力计算复杂度
6.项目:微调Qwen时发现验证集loss震荡的可能原因
7.项目:多工具调用中如何用DAG实现并行调度优化
8.项目:长文本推理的压缩方案 对比Sliding Window和NTK
9.项目:模型量化时遇到激活值异常溢出如何调试
10.项目:自主构建的评估体系里如何分离知识幻觉与推理幻觉
11.代码题:lc39 组合总和
全部评论
相关推荐
查看11道真题和解析