字节大模型算法一面 1h 攒人品

发点面经攒攒人品~
1.实习拷打
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文拷打
全部评论
佬能说下哪个部分吗
点赞 回复 分享
发布于 03-21 21:20 辽宁

相关推荐

评论
2
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务