阿里健康搜推算法一面 1h
前段时间面的阿里健康,感觉问的不是很难,基本上都答出来了,但是没有后续了,发下面经攒攒人品
1.选一个项目进行介绍
2.infoNCE loss是计算公式是什么?为什么使用这个损失函数?
3.为什么模型结构要换成HSTU?
4.Cross attention和普通的self attention有什么区别?
5.Flash attention的原理是什么?
6.Self attention的 self 体现在哪里?为什么要使用多头?这个多头是怎么实现的?
7.为什么QK点积需要除以根号d k?
8.什么是kv cache?
9.介绍一下什么是因果掩码?
10.SFT微调和预训练之间的区别?
11.为什么现在的大模型都使用因果掩码?
12.普通的推荐模型和大模型之间有什么关联?生成式推荐了解吗?
1.选一个项目进行介绍
2.infoNCE loss是计算公式是什么?为什么使用这个损失函数?
3.为什么模型结构要换成HSTU?
4.Cross attention和普通的self attention有什么区别?
5.Flash attention的原理是什么?
6.Self attention的 self 体现在哪里?为什么要使用多头?这个多头是怎么实现的?
7.为什么QK点积需要除以根号d k?
8.什么是kv cache?
9.介绍一下什么是因果掩码?
10.SFT微调和预训练之间的区别?
11.为什么现在的大模型都使用因果掩码?
12.普通的推荐模型和大模型之间有什么关联?生成式推荐了解吗?
全部评论
相关推荐
02-07 14:16
门头沟学院 前端工程师 点赞 评论 收藏
分享
