90分钟面经:智谱大模型

✅一面
✴️0、手撕: tokenizer,RAG基本流程(可伪代码) 
✴️项目: 
1、项目具体解决问题 
2、每个模块如何实现 
3、NL2SQL在处理多表查询的时候采取啥策略 
4、k8s和docker在项目中的作用 
✴️八股: 
5、对PPO DPO GRPO计算逻辑的理解 
6、对KL散度的三种估计的理解 
7、LoRA和p-tuning v2的区别,怎么初始化 
8、DeepSeek R1训练全流程,MLA具体怎么做的 
9、梯度爆炸和消失怎么处理的 
10、torch中register_parameter和buffer啥区别 
11、torch如何实现不记录梯度 
12、torch squeeze和unsqueeze干嘛的 
13、python设计删除流程的时候,若涉及可变和不可变对象该如何debug 
14、多机多卡和单机多卡的实现上有什么不同? 
15、tokenizer的输出?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。

全部评论
手撕: tokenizer,RAG基本流程(可伪代码) 这种是怎么做的?tokenizer怎么考察代码?还有rag
点赞 回复 分享
发布于 06-12 16:05 广东

相关推荐

不愿透露姓名的神秘牛友
06-21 11:29
凉风落木楚山秋:他们两都收获了流量,只有爷浪费了时间
点赞 评论 收藏
分享
评论
4
21
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务