腾讯混元多模态一面
1️⃣自我介绍
2️⃣实习项目拷打
3️⃣科研拷打
4️⃣八股
Grpo 原理,公式,与 ppo 的区别
1.介绍其他的一些强化学习方法
2.介绍 Rope
3.为什么大模型用 decode - only 架构,为什么不用 encode - decode
4.介绍 qwen -2.5的结构
5.Sft 训练 qwen - vl -7b模型占用的显存是多少,vit 和映射层占多少显存
6.训练的时候爆显存了怎么解决
7.介绍一下 deepspeed
5️⃣手撕
1.连续数组最大和
2.搜索旋转数组
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2️⃣实习项目拷打
3️⃣科研拷打
4️⃣八股
Grpo 原理,公式,与 ppo 的区别
1.介绍其他的一些强化学习方法
2.介绍 Rope
3.为什么大模型用 decode - only 架构,为什么不用 encode - decode
4.介绍 qwen -2.5的结构
5.Sft 训练 qwen - vl -7b模型占用的显存是多少,vit 和映射层占多少显存
6.训练的时候爆显存了怎么解决
7.介绍一下 deepspeed
5️⃣手撕
1.连续数组最大和
2.搜索旋转数组
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐

点赞 评论 收藏
分享

点赞 评论 收藏
分享