字节多模态大模型日常实习一面分享
攒人品中,祝大家都能拿到满意的Offer!
1.项目拷打
2.ppo和grpo区别,为什么不用grpo,dpo损失函数。
3.FSDP和DDP区别,对哪些做分片;Megatron以及其并行策略。
4.kv cache原理,vllm两个优化。
5.awq和gptq。
6.lora调参,位置编码,oom怎么办,activation checkpointing原理。
7.Qwen3-VL改进,目前多模态大模型一般架构。
8.一些cv基础问题。
9.手撕:最大四连通域(岛屿最大面积)
1.项目拷打
2.ppo和grpo区别,为什么不用grpo,dpo损失函数。
3.FSDP和DDP区别,对哪些做分片;Megatron以及其并行策略。
4.kv cache原理,vllm两个优化。
5.awq和gptq。
6.lora调参,位置编码,oom怎么办,activation checkpointing原理。
7.Qwen3-VL改进,目前多模态大模型一般架构。
8.一些cv基础问题。
9.手撕:最大四连通域(岛屿最大面积)
全部评论
相关推荐
查看12道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看15道真题和解析 点赞 评论 收藏
分享

