快手多模态大模型算法实习一面

1.项目介绍
2.讲一下在百度实习期间做的主要工作。
3.压缩专家机制是如何实现的?
4.用的训练数据集规模分别是多少?
5.为什么选择用SFT训练,而不是用RL训练?
6.介绍一下 DPO, PPO, GRPO的原理和区别
7.PPO的损失是token级别还是sequence级别的?
8.PPO中的Critic模型是如何计算优势的?
9.讲一下LoRA微调技术原理
10.LoRA微调是如何减少训练参数的?
11.LoRA技术有哪些优势?
12.算法题
手撕 三数之和(撕出来了
全部评论
LoRA 微调用了多少参数,这细节问得够深
点赞 回复 分享
发布于 2025-12-29 18:10 四川
PPO 和 SFT 的区别,这是 RLHF 的必考题啊
点赞 回复 分享
发布于 2025-12-29 18:10 陕西
快手这面题太硬核了,全是大模型算法的核心点
点赞 回复 分享
发布于 2025-12-29 18:10 广东
是浙大才怎么简单嘛?
点赞 回复 分享
发布于 2025-12-28 10:19 山东

相关推荐

评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务