B站秋招大模型算法一面60min
1.基模为什么选择instruct而不是base
2.怎么处理cot数据(tokenizer中声明specialtoken)
3.提到sft不能激发反思,说说理解
4.训练总共多少epoch,训练速度如何
5.你们用的方法属于on/off policy?说说理解
6.通用和领域的数据配比?有做过数据配比的实验吗?
7.了解DPO吗,说一下
8.比较GRPO相对于PPO去掉了critic的影响
9.对ppo-clip的理解,以及为什么clip后还要取min
其他
1.能不能提前来实习,几月能来
2.对岗位有什么倾向
3.用B站吗,B站等级
反问
1.部门业务
2.校招生方向
2.怎么处理cot数据(tokenizer中声明specialtoken)
3.提到sft不能激发反思,说说理解
4.训练总共多少epoch,训练速度如何
5.你们用的方法属于on/off policy?说说理解
6.通用和领域的数据配比?有做过数据配比的实验吗?
7.了解DPO吗,说一下
8.比较GRPO相对于PPO去掉了critic的影响
9.对ppo-clip的理解,以及为什么clip后还要取min
其他
1.能不能提前来实习,几月能来
2.对岗位有什么倾向
3.用B站吗,B站等级
反问
1.部门业务
2.校招生方向
全部评论
相关推荐
点赞 评论 收藏
分享
查看10道真题和解析