快手多模态大模型算法实习一面
1.项目介绍
2.讲一下在百度实习期间做的主要工作。
3.压缩专家机制是如何实现的?
4.用的训练数据集规模分别是多少?
5.为什么选择用SFT训练,而不是用RL训练?
6.介绍一下 DPO, PPO, GRPO的原理和区别
7.PPO的损失是token级别还是sequence级别的?
8.PPO中的Critic模型是如何计算优势的?
9.讲一下LoRA微调技术原理
10.LoRA微调是如何减少训练参数的?
11.LoRA技术有哪些优势?
12.算法题
手撕 三数之和(撕出来了
2.讲一下在百度实习期间做的主要工作。
3.压缩专家机制是如何实现的?
4.用的训练数据集规模分别是多少?
5.为什么选择用SFT训练,而不是用RL训练?
6.介绍一下 DPO, PPO, GRPO的原理和区别
7.PPO的损失是token级别还是sequence级别的?
8.PPO中的Critic模型是如何计算优势的?
9.讲一下LoRA微调技术原理
10.LoRA微调是如何减少训练参数的?
11.LoRA技术有哪些优势?
12.算法题
手撕 三数之和(撕出来了
全部评论
LoRA 微调用了多少参数,这细节问得够深
PPO 和 SFT 的区别,这是 RLHF 的必考题啊
快手这面题太硬核了,全是大模型算法的核心点
是浙大才怎么简单嘛?
相关推荐
点赞 评论 收藏
分享
查看15道真题和解析