商汤大模型实习一面 攒人品中
继续来分享下最近的面经~欢迎友好讨论,信息共享
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
全部评论
相关推荐
查看15道真题和解析 点赞 评论 收藏
分享
04-13 16:05
湖北文理学院 Java 点赞 评论 收藏
分享