作业帮提前批 解题方向 二面面经
1.自我介绍
2.拷打实习
3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题
)
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)
8.手撕 给定严格递增序列,求最大斐波那契子序列的长度
面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer


-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
2.拷打实习
3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)
8.手撕 给定严格递增序列,求最大斐波那契子序列的长度
面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer
-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
全部评论
校友赢麻了

问 flash att 是因为简历上有吗? 我都没咋复习过推理训练框架相关的东西。今天刚作业帮 HR 面完。

我超,***了,经提醒,才发现面试官其实就是想问为什么softmax要减去最大值,为了防止值溢出,确实是常规softmax实现的时候都操作

,我一直在想为什么flash attention要这样操作,淦!
相关推荐
10-05 15:02
浙江工业大学 集成电路IC设计 点赞 评论 收藏
分享
故事和酒66:让每一颗种子找到合适自己的生长方式,最终绽放出独一无二的花朵,这远比所有人都被迫长成同一棵“参天大树”的世界,更加美好和富有生机。这是社会和环境的问题,而不是我们的问题。然而就是在这样的环境中,楼主依然能突破自我,逆势成长,其中的艰辛可想而知。这一路的苦难终究会化作你成长的养料
点赞 评论 收藏
分享