字节大模型算法实习三面 技术面

给我面没招了,发点面经攒攒人品~
1.  项目拷打
2.  实习中做了什么?遇到什么问题?怎么评估效果?
3.  怎么理解 YaRN?跟其他长文本/外推方案相比差异在哪?
4.  RoPE 怎么跟 MLA 结合起来讲?只在短文本训过的模型,如何做长文本外推?
5.  flash-attention / Megatron-LM 你了解哪些关键点?
6.  了解哪些Tokenizer算法?像 DeepSeek 这类的分词思路跟标准 BPE 有什么不同?
8.  coding:先讲原理,手写 FFN
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务