作业帮提前批 解题方向 二面面经

1.自我介绍
2.拷打实习

3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)

8.手撕 给定严格递增序列,求最大斐波那契子序列的长度

面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer

-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
全部评论
校友赢麻了
点赞 回复 分享
发布于 2024-08-23 00:16 江苏
问 flash att 是因为简历上有吗? 我都没咋复习过推理训练框架相关的东西。今天刚作业帮 HR 面完。
点赞 回复 分享
发布于 2024-08-19 21:17 北京
我超,***了,经提醒,才发现面试官其实就是想问为什么softmax要减去最大值,为了防止值溢出,确实是常规softmax实现的时候都操作,我一直在想为什么flash attention要这样操作,淦!
点赞 回复 分享
发布于 2024-08-19 15:40 北京

相关推荐

02-26 13:56
已编辑
重庆财经学院 Java
King987:你有实习经历,但是写的也太简单了,这肯定是不行的,你主要要包装实习经历这一块,看我的作品,你自己包装一下吧,或者发我,我给你出一期作品
点赞 评论 收藏
分享
牛客100866号技...:把电科加粗,把电科加粗,把电科加粗,两个吊车尾的项目合并成一个,再加一个管理系统。电科✌🏻在成都面中厂手拿把掐
点赞 评论 收藏
分享
评论
3
17
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务