字节秋招算法一二面凉经
一面
1.实习项目提问
2.用的模型参数量有多大?
3.Prompt engineering的方法?有没有自动化的方法?
4.有什么方法避免出现安全问题和幻觉问题?
5.Transformer结构
6.decoder部分训练和推理有什么区别?
7.decoder预测时i位置预测出来了,然后预测i+1位置,那么是用i位置的8.token结果还是概率结果?为什么?
9.Decoder only参数量估计
10.FFN中一般把d扩大到多少?
11.KV-cache的空间复杂度
12.为什么用MMOE?从scaling law的角度去回答
13.code:编辑距离
二面
1.标注成本是多少
2.怎么确保标注的训练集是高质量
3.验证集的类别分布是什么
4.问实习项目有什么优化思路
5.为什么few shot可以提高模型输出表现
6.FAISS的原理
7.知识库怎么更新?
8.为什么不直接用相似度召回?而是过一遍大模型?
9.PPO和GRPO的区别?
10.为什么GRPO的kl 在loss中
11.PPO中每个模型解释
1.实习项目提问
2.用的模型参数量有多大?
3.Prompt engineering的方法?有没有自动化的方法?
4.有什么方法避免出现安全问题和幻觉问题?
5.Transformer结构
6.decoder部分训练和推理有什么区别?
7.decoder预测时i位置预测出来了,然后预测i+1位置,那么是用i位置的8.token结果还是概率结果?为什么?
9.Decoder only参数量估计
10.FFN中一般把d扩大到多少?
11.KV-cache的空间复杂度
12.为什么用MMOE?从scaling law的角度去回答
13.code:编辑距离
二面
1.标注成本是多少
2.怎么确保标注的训练集是高质量
3.验证集的类别分布是什么
4.问实习项目有什么优化思路
5.为什么few shot可以提高模型输出表现
6.FAISS的原理
7.知识库怎么更新?
8.为什么不直接用相似度召回?而是过一遍大模型?
9.PPO和GRPO的区别?
10.为什么GRPO的kl 在loss中
11.PPO中每个模型解释
全部评论
相关推荐
11-12 16:50
门头沟学院 大数据开发工程师 点赞 评论 收藏
分享
查看22道真题和解析 点赞 评论 收藏
分享