阿里 日常实习 大模型算法 二面
发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.项目拷打
2.技术八股
1-讲一下Wan(阿里的通义万相)的框架是什么
2-是否了解MM-DiT的框架
3-对于DiT,时间t是怎么注入的,AdaLN讲一下
4-了不了解VideoVAE是怎么训练的,用了什么损失函数,如果重建视频不清晰可以再加什么loss
5-KL散度具体的公式是什么样的?和交叉熵损失函数有什么区别联系
6-是否了解Flowmatching,具体是怎么做的,和DDPM的优劣
7-是否了解视频后训练怎么做的,GRPO是什么
8-你觉得对于训练一个视频基模,应该有哪几个流程,哪一步比较关键
9-训练过多大的模型,用了多少张卡
10-训练过程中是否遇到过不稳定的情况,本质上是因为什么
11-是否了解混合精度,FP16和BF16的区别
3.手撕:经典multi-head attention
1.项目拷打
2.技术八股
1-讲一下Wan(阿里的通义万相)的框架是什么
2-是否了解MM-DiT的框架
3-对于DiT,时间t是怎么注入的,AdaLN讲一下
4-了不了解VideoVAE是怎么训练的,用了什么损失函数,如果重建视频不清晰可以再加什么loss
5-KL散度具体的公式是什么样的?和交叉熵损失函数有什么区别联系
6-是否了解Flowmatching,具体是怎么做的,和DDPM的优劣
7-是否了解视频后训练怎么做的,GRPO是什么
8-你觉得对于训练一个视频基模,应该有哪几个流程,哪一步比较关键
9-训练过多大的模型,用了多少张卡
10-训练过程中是否遇到过不稳定的情况,本质上是因为什么
11-是否了解混合精度,FP16和BF16的区别
3.手撕:经典multi-head attention
全部评论
相关推荐
点赞 评论 收藏
分享
查看13道真题和解析