26秋招小红书NLP大模型算法一面
1.介绍transformer的位置编码,介绍RoPE;
2.transformer的normalization,为什么用layernorm不用其他的;介绍RMSnorm
3.encoder中的self-attention和decoder中的self-attention有什么区别
4.DeepSeek R1有看过吗? 介绍一下
5.R1的 MLA是如何节约 KV cache的?
6.优化算法知道哪些?讲-下AdamW
7.显存占用和哪些因素有关? 算一下一个7B的模型推理需要多少显存,训练呢?
8.遇到过灾难性遗忘吗?怎么缓解的
9.介绍lora,为什么lora是有效的(只需要训练更少的参数而不是训练全参数)
10.代码题:lc300 最长递增子序列
2.transformer的normalization,为什么用layernorm不用其他的;介绍RMSnorm
3.encoder中的self-attention和decoder中的self-attention有什么区别
4.DeepSeek R1有看过吗? 介绍一下
5.R1的 MLA是如何节约 KV cache的?
6.优化算法知道哪些?讲-下AdamW
7.显存占用和哪些因素有关? 算一下一个7B的模型推理需要多少显存,训练呢?
8.遇到过灾难性遗忘吗?怎么缓解的
9.介绍lora,为什么lora是有效的(只需要训练更少的参数而不是训练全参数)
10.代码题:lc300 最长递增子序列
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享

