美团算法大模型实习二面 70min
总时长70分钟左右,比一面显著更难,对项目抠得很深,八股都是结合项目问的,算法题是hot100中的困难题
1.实习介绍
2.后面问了相当多的项目细节,以及具体参数(选的框架、显卡配置、训练参数等),有10多个问题,期间还让比较GRPO、DPO、DAPO、GSPO等方法
3.项目+八股:图片是怎么传递给VLM(Qwen2.5 VL)并被VLM理解的,你知道吗?
4.项目:用的什么Loss?;可以用numpy写一下公式吗?
5.项目+八股:你说到Owen2.5 VL是包括ViT的,可以介绍一下ViT的结构和原理吗?
6.Qwen 2.5 VL里面的Transformer结构和普通的Transformer的结构有哪些不同?
7.RMSNorm和LayerNorm主要区别在哪里:现在大模型更喜欢哪个,为什么这么设计?
8.算法题:lc25 K个一组反转链表(
9.反问
1.实习介绍
2.后面问了相当多的项目细节,以及具体参数(选的框架、显卡配置、训练参数等),有10多个问题,期间还让比较GRPO、DPO、DAPO、GSPO等方法
3.项目+八股:图片是怎么传递给VLM(Qwen2.5 VL)并被VLM理解的,你知道吗?
4.项目:用的什么Loss?;可以用numpy写一下公式吗?
5.项目+八股:你说到Owen2.5 VL是包括ViT的,可以介绍一下ViT的结构和原理吗?
6.Qwen 2.5 VL里面的Transformer结构和普通的Transformer的结构有哪些不同?
7.RMSNorm和LayerNorm主要区别在哪里:现在大模型更喜欢哪个,为什么这么设计?
8.算法题:lc25 K个一组反转链表(
9.反问
全部评论
相关推荐
点赞 评论 收藏
分享
02-03 22:19
西北工业大学 前端工程师 点赞 评论 收藏
分享
查看6道真题和解析