商汤大模型实习一面 攒人品中

继续来分享下最近的面经~欢迎友好讨论,信息共享
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务