26校招快手大模型算法二面
1.项目介绍
2.微调数据构造
3.案例库的embedding是怎么构建的
4.视频抽帧怎么抽
5.Sft是怎么进行监督训练的
6.为什么lora可以训练少量参数来实现功能
7.Ppo与grpo区别
8.Dpo与ppo区别
9.On policy与off policy
10.Ppo的优势函数是怎么计算的
11.PPo是怎么训练的
12.讲一下豆包模型的架构,千问的模型架构
13.手撕三数之和
2.微调数据构造
3.案例库的embedding是怎么构建的
4.视频抽帧怎么抽
5.Sft是怎么进行监督训练的
6.为什么lora可以训练少量参数来实现功能
7.Ppo与grpo区别
8.Dpo与ppo区别
9.On policy与off policy
10.Ppo的优势函数是怎么计算的
11.PPo是怎么训练的
12.讲一下豆包模型的架构,千问的模型架构
13.手撕三数之和
全部评论
相关推荐
点赞 评论 收藏
分享