字节搜推算法实习一面 50min

挖的很深,简历细节需把握
1.实习深挖
2.介绍数据向量化,用过什么模型
3.介绍Flash Attention的原理,复杂度有什么变化
4.介绍Int8量化原理,具体做了什么操作把FP16变成Int8
5.大模型常用的旋转位置编码原理,相对位置编码会有什么问题
6.论文里的交叉注意力机制具体是怎么做的
7.介绍Transformer架构整体的基础细节,归一化用的什么,Layer Norm在残差连接前做还是后
8.介绍Batch Norm原理,训练和推理阶段分别怎么处理,两个超参数是什么
9.日常数据清洗做的多吗
10.手撕二叉树最长的简单路径
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务