快手秋招算法一面40min

1.transformer的架构
2.encoder和decoder的区别
3.encoder block有哪些部分组成
4.attention机制
5.MHA工程上如何实现
6.pre norm和post norm的区别
7.pre norm的优势
8.Pretrain的损失函数
9.SFT的损失函数
10.SFT是如何实现只计算output的损失
11.RL中reward和 critic 的区别,各自是如何在工程里发挥作用的
12.RAG中快速索引的优化方法有哪些
13.用过哪些训练框架,是否有过多机多卡的训练经验
14.是否遇到训练过程梯度爆炸,显存不足的问题?有哪些解决的trick

手撕算法:
伪码实现RAG
全部评论

相关推荐

不愿透露姓名的神秘牛友
11-20 19:37
京东工业 数据分析师 1.15K*16薪 硕士海归
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务