字节大模型算法实习三面 技术面
给我面没招了,发点面经攒攒人品~
1. 项目拷打
2. 实习中做了什么?遇到什么问题?怎么评估效果?
3. 怎么理解 YaRN?跟其他长文本/外推方案相比差异在哪?
4. RoPE 怎么跟 MLA 结合起来讲?只在短文本训过的模型,如何做长文本外推?
5. flash-attention / Megatron-LM 你了解哪些关键点?
6. 了解哪些Tokenizer算法?像 DeepSeek 这类的分词思路跟标准 BPE 有什么不同?
8. coding:先讲原理,手写 FFN
1. 项目拷打
2. 实习中做了什么?遇到什么问题?怎么评估效果?
3. 怎么理解 YaRN?跟其他长文本/外推方案相比差异在哪?
4. RoPE 怎么跟 MLA 结合起来讲?只在短文本训过的模型,如何做长文本外推?
5. flash-attention / Megatron-LM 你了解哪些关键点?
6. 了解哪些Tokenizer算法?像 DeepSeek 这类的分词思路跟标准 BPE 有什么不同?
8. coding:先讲原理,手写 FFN
全部评论
相关推荐
点赞 评论 收藏
分享