AI infra校招 科大讯飞 35m

给我面没招了,感觉自己好菜、面试很难,还是要多多练习
项目深挖
1. Flash Attention:核心优化点是什么?(分块加载QKV、Online Softmax、显存复杂度O(N^2)->O(N))
2. Self-Attention:为什么要除以 √d?(防止点积过大导致Softmax梯度消失)
3. 回调函数怎么实现?
4. 显存越界怎么排查?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务