快手-大模型算法应用工程师-二面
1.自我介绍
2.简历问答
3.问了一个根号dk的八股,flashattention,pageattention,给了一个7B模型的具体参数,以及存储形式,算训练过程的显存开销
4.代码:MHA
2.简历问答
3.问了一个根号dk的八股,flashattention,pageattention,给了一个7B模型的具体参数,以及存储形式,算训练过程的显存开销
4.代码:MHA
全部评论
同学,瞅瞅我司,医疗独角兽,我的主页最新动态,绿灯直达,免笔试~
相关推荐

点赞 评论 收藏
分享