美团27暑期大模型算法凉经分享
攒人品中,祝大家都能拿到满意的Offer!
1.项目拷打
2. 讲论文
3. 4k* 4k输入qwen3.5和qwen1,分别占用多少token(mlp和q-former)
4. 为什么qwen从q-former转到原生分辨率
5. 对齐做过吗
6. 从对齐这个角度出发分析qwen3.5会做原生的多模态,原生和非原生的区别是?
以为说的是分辨率答了个动态分辨)
7. 算一下模型训练和推理时候显存占用,算一下kv cache的显存占用
8. 为什么训练的时候不需要缓存kv cache
1.项目拷打
2. 讲论文
3. 4k* 4k输入qwen3.5和qwen1,分别占用多少token(mlp和q-former)
4. 为什么qwen从q-former转到原生分辨率
5. 对齐做过吗
6. 从对齐这个角度出发分析qwen3.5会做原生的多模态,原生和非原生的区别是?
以为说的是分辨率答了个动态分辨)
7. 算一下模型训练和推理时候显存占用,算一下kv cache的显存占用
8. 为什么训练的时候不需要缓存kv cache
全部评论
相关推荐
昨天 09:51
门头沟学院 golang 点赞 评论 收藏
分享
查看11道真题和解析