26秋招小红书NLP大模型算法一面

1.介绍transformer的位置编码,介绍RoPE;
2.transformer的normalization,为什么用layernorm不用其他的;介绍RMSnorm
3.encoder中的self-attention和decoder中的self-attention有什么区别
4.DeepSeek R1有看过吗? 介绍一下
5.R1的 MLA是如何节约 KV cache的?
6.优化算法知道哪些?讲-下AdamW
7.显存占用和哪些因素有关? 算一下一个7B的模型推理需要多少显存,训练呢?
8.遇到过灾难性遗忘吗?怎么缓解的
9.介绍lora,为什么lora是有效的(只需要训练更少的参数而不是训练全参数)
10.代码题:lc300 最长递增子序列
全部评论

相关推荐

哞客37422655...:你猜为什么福利这么好还得一直追着你问
点赞 评论 收藏
分享
白火同学:1、简历可以浓缩成一页,简历简历先要“简”方便HR快速过滤出有效信息,再要“历”用有效信息突出个人的含金量。 2、教育背景少了入学时间~毕业时间,HR判断不出你是否为应届生。 3、如果你的平台账号效果还不错,可以把账号超链接或者用户名贴到对应位置,一是方便HR知道你是具体做了什么内容的运营,看到账号一目了然,二是口说无凭,账号为证,这更有说服力。
面试被问期望薪资时该如何...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务