快手秋招算法一面40min
1.transformer的架构
2.encoder和decoder的区别
3.encoder block有哪些部分组成
4.attention机制
5.MHA工程上如何实现
6.pre norm和post norm的区别
7.pre norm的优势
8.Pretrain的损失函数
9.SFT的损失函数
10.SFT是如何实现只计算output的损失
11.RL中reward和 critic 的区别,各自是如何在工程里发挥作用的
12.RAG中快速索引的优化方法有哪些
13.用过哪些训练框架,是否有过多机多卡的训练经验
14.是否遇到训练过程梯度爆炸,显存不足的问题?有哪些解决的trick
手撕算法:
伪码实现RAG
2.encoder和decoder的区别
3.encoder block有哪些部分组成
4.attention机制
5.MHA工程上如何实现
6.pre norm和post norm的区别
7.pre norm的优势
8.Pretrain的损失函数
9.SFT的损失函数
10.SFT是如何实现只计算output的损失
11.RL中reward和 critic 的区别,各自是如何在工程里发挥作用的
12.RAG中快速索引的优化方法有哪些
13.用过哪些训练框架,是否有过多机多卡的训练经验
14.是否遇到训练过程梯度爆炸,显存不足的问题?有哪些解决的trick
手撕算法:
伪码实现RAG
全部评论
相关推荐
点赞 评论 收藏
分享
昨天 08:50
江西财经大学 C++ 点赞 评论 收藏
分享
11-19 12:09
门头沟学院 Java 点赞 评论 收藏
分享