阿里云大模型算法实习二面-攒人品
攒人品中,祝大家都能拿到满意的Offer!
1. 实习内容,问的非常详细,会问到你负责了什么,用了多少张卡,学习率怎么样,训练了多久,用了多少数据,数据是怎么准备的,显存占用怎么样
2. 如何判断模型是否收敛
3. 如果训练的时候梯度消失或者爆炸,你怎么解决如何系统判断是否训练完成,特别是在视频生成模型中
4. 有哪些常见的蒸馏方法
5. LORA 微调的原理
6. DiT 的框架流程,如何时间注入,讲一讲 AdaLN
讲一下 flow Matching,原理,优势现在为什么大家都用 RMSNorm 而不是LayerNorm
7. Adam 和 AdamW 的原理,有什么改进
8. 二叉树的右视图
非 hot 100,滑动窗口
扎破所有气球的最少箭数
1. 实习内容,问的非常详细,会问到你负责了什么,用了多少张卡,学习率怎么样,训练了多久,用了多少数据,数据是怎么准备的,显存占用怎么样
2. 如何判断模型是否收敛
3. 如果训练的时候梯度消失或者爆炸,你怎么解决如何系统判断是否训练完成,特别是在视频生成模型中
4. 有哪些常见的蒸馏方法
5. LORA 微调的原理
6. DiT 的框架流程,如何时间注入,讲一讲 AdaLN
讲一下 flow Matching,原理,优势现在为什么大家都用 RMSNorm 而不是LayerNorm
7. Adam 和 AdamW 的原理,有什么改进
8. 二叉树的右视图
非 hot 100,滑动窗口
扎破所有气球的最少箭数
全部评论
相关推荐
点赞 评论 收藏
分享
05-06 14:46
河南科技大学 前端工程师 点赞 评论 收藏
分享
点赞 评论 收藏
分享
04-01 10:47
云南大学 Java 点赞 评论 收藏
分享
