大模型算法日常实习-字节- TT搜索

攒攒人品!有面试过同岗的朋友欢迎评论区交流
项目:
1. 意图识别具体分哪几类?是怎么做的?
2. 如果是多意图该怎么处理?(单标签 vs 多标签分类)
3. 场景题:动态意图问题:某个关键词词意图随时间/热点变化,模型如何适应?
4. RAG在意图识别的作用
5. 3B模型大流量场景下,有什么办法既能利用3B模型的效果,又不需要实时推理?
6. vllm技术优势 为什么推理性能好

1. 为什么选Qwen做裁判?有没有做过不同模型版本、参数的消融实验?交付指标是什么?
3. dpo的正反馈样例具体指什么?是人工标的还是线上的?
4. SFT后做DPO:DPO和RLHF(PPO)的区别是什么?
5. 如果没有 Reference Model(参考模型),去做RL/DPO训练,会产生什么后果?(考察:KL散度约束的作用,防止Reward Hacking和语言崩坏)。

八股
1. DeepSeek-R1:熟悉吗?它的训练或结构创新点是什么? (r1-zero 和 r1)
2. GRPO:GRPO和PPO的区别?
3. 在RL中,如果模型每次Rollout都随机不出正确答案(一直0分),导致训练停滞,该怎么解决?

Lc 239 滑动窗口最大值
全部评论

相关推荐

04-15 01:50
门头沟学院 Java
整体面试还是不错的,但是没后续了,不知道是哪里出了问题1.实习拷打2. double 处理金额会发生什么问题?通常用什么来替代 double?3. 字符串怎么转成字节数组?在 Java 中默认编码是什么?4. 一个英文字符占多少位?中文占多少位?5. 创建 MySQL 数据库的编码utf8mb3 和 utf8mb4 有什么区别?6. 有在工作中处理过 emoji 表情字符吗?怎么去存储表情在数据库中?7. 字符串拼接用 + 号和用 StringBuilder 有什么区别?8. 遍历 List 的过程中,根据条件删除元素的正确操作是什么?(注:不能使用 list 本身自带的 remove,要用迭代器的 remove)9. 初始容量为 4 的 ArrayList,放 10 个元素会发生几次扩容?10. 假设有一个对象包含一个非静态的 private 方法,如何通过反射调用它?需要哪几步操作?11. 8G 内存的机器跑一个 Java 常驻进程,你会怎么分配堆内存和元空间?设置哪几个参数比较好?12. 假设是一个需要用到 NIO 的 Netty 之类的一些框架的一个程序,出现操作系统把 Java 程序杀掉的情况,该从哪些方面怎么排查?(答了内存、cpu、日志三个方面)13. 如果死前内存占用 97%,死后降至 15%;死前 CPU 占用仅 20%-30%,这是发生了什么?(答了可能出现了循环创建等情况)14. Java 循环创建会先把分配好的堆内存打满吗?请描述从开始循环创建到进程被杀死的整个流程。15. 静态对象或变量会出现循环创建吗?16. 在上述内存打满、CPU 较低的场景中,会有大量的 Full GC 吗?为什么?(不会,因为 Full GC 会使 CPU 占用过高)17. 操作系统判定进程资源使用不合理将其干掉,去哪看系统底层日志?
查看16道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务