推荐算法-日常实习二面-字节
发一下问题给大家参考,攒攒人品!
1.mha的作用是什么?
2.qkv中attention计算公式
3.除以根号d的作用是什么?
4.layernorm作用是什么 放在前面后面的区别是什么 前归一化和后归一化的区别
5.大模型主流的是什么?rmsnorm,为什么主流的是这个?
6.对序列建模,对超长序列的优化手段有什么?
7.token压缩的方式?
8.长序列训练效率相关的,如何加速?
9.训练模型遇到过哪些异常?如何解决?
10.碰到nan怎么解决
11.梯度消失和梯度爆炸分别如何解决?
12.除了梯度异常 还有其他异常吗
13.比如过拟合 如何解决
14.手撕: 组合总和2
1.mha的作用是什么?
2.qkv中attention计算公式
3.除以根号d的作用是什么?
4.layernorm作用是什么 放在前面后面的区别是什么 前归一化和后归一化的区别
5.大模型主流的是什么?rmsnorm,为什么主流的是这个?
6.对序列建模,对超长序列的优化手段有什么?
7.token压缩的方式?
8.长序列训练效率相关的,如何加速?
9.训练模型遇到过哪些异常?如何解决?
10.碰到nan怎么解决
11.梯度消失和梯度爆炸分别如何解决?
12.除了梯度异常 还有其他异常吗
13.比如过拟合 如何解决
14.手撕: 组合总和2
全部评论
相关推荐
查看10道真题和解析