字节大模型算法实习一面凉经
1.实习介绍
2.介绍transformer架构
3.transformer架构为什么要切分为多头?
4.讲一下attention的具体计算步骤
5.计算attention的softmax之前为什么要除根号d_k
6.介绍一下transformer位置编码;还了解别的位置编码吗?
7.如果在transformer中,把K去掉,变成Q*Q*V,这样会有什么问题吗?假如不考虑解码器,只考虑编码器内部的attention操作的话,这样会有什么问题?
8.transformer是encoder-decoder架构,而GPT是decoder-only架构,为什么会演变成这样一种形式?为什么把encoder给舍弃掉了?
9.为什么像GPT这种生成式任务,不同时利用encoder-decoder?
10.transformer的FFN层为什么会逐渐演变成MOE层?
11.moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计?
12.做agent有哪些框架?
13.做agent的开发范式有哪些?
14.lora微调的核心原理是什么?
15.大模型幻觉了解吗,怎么缓解大模型幻觉?
16.手撕,最长递增子序列
2.介绍transformer架构
3.transformer架构为什么要切分为多头?
4.讲一下attention的具体计算步骤
5.计算attention的softmax之前为什么要除根号d_k
6.介绍一下transformer位置编码;还了解别的位置编码吗?
7.如果在transformer中,把K去掉,变成Q*Q*V,这样会有什么问题吗?假如不考虑解码器,只考虑编码器内部的attention操作的话,这样会有什么问题?
8.transformer是encoder-decoder架构,而GPT是decoder-only架构,为什么会演变成这样一种形式?为什么把encoder给舍弃掉了?
9.为什么像GPT这种生成式任务,不同时利用encoder-decoder?
10.transformer的FFN层为什么会逐渐演变成MOE层?
11.moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计?
12.做agent有哪些框架?
13.做agent的开发范式有哪些?
14.lora微调的核心原理是什么?
15.大模型幻觉了解吗,怎么缓解大模型幻觉?
16.手撕,最长递增子序列
全部评论
相关推荐
查看3道真题和解析