字节大模型算法 日常实习一面

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.深挖多模态论文介绍transformer架构
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文用的deepspeed详细讲了一下三个stage分别是什么
全部评论
请问是博士学历嘛
点赞 回复 分享
发布于 03-18 13:54 黑龙江

相关推荐

评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务