快手秋招算法一面40min
1.transformer的架构
2.encoder和decoder的区别
3.encoder block有哪些部分组成
4.attention机制
5.MHA工程上如何实现
6.pre norm和post norm的区别
7.pre norm的优势
8.Pretrain的损失函数
9.SFT的损失函数
10.SFT是如何实现只计算output的损失
11.RL中reward和 critic 的区别,各自是如何在工程里发挥作用的
12.RAG中快速索引的优化方法有哪些
13.用过哪些训练框架,是否有过多机多卡的训练经验
14.是否遇到训练过程梯度爆炸,显存不足的问题?有哪些解决的trick
手撕算法:
伪码实现RAG
2.encoder和decoder的区别
3.encoder block有哪些部分组成
4.attention机制
5.MHA工程上如何实现
6.pre norm和post norm的区别
7.pre norm的优势
8.Pretrain的损失函数
9.SFT的损失函数
10.SFT是如何实现只计算output的损失
11.RL中reward和 critic 的区别,各自是如何在工程里发挥作用的
12.RAG中快速索引的优化方法有哪些
13.用过哪些训练框架,是否有过多机多卡的训练经验
14.是否遇到训练过程梯度爆炸,显存不足的问题?有哪些解决的trick
手撕算法:
伪码实现RAG
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
10-23 15:58
华中农业大学 Java
LZStarV:冲就好了,就算真的是字节也冲,面评脏了大不了等三四个月就淡了,而且等到那个时候实力进步了选择还多,何必拘泥于字节 点赞 评论 收藏
分享
10-29 16:39
香港大学 算法工程师 点赞 评论 收藏
分享
点赞 评论 收藏
分享