快 STAR 大模型应用面经

一开始会以为问的很难,然后还是集中在项目,八股也比较常见,虽然问的还挺深,我没答出来很多。
1. 先写题,dp, 两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别? 三角函数位置编码和 ROPE 公式很像啊,他们是怎么实现不同的功能?(一个加 embedding 一个加 KQV,但是公式很像但是推理完全不一样吧,不太会答)
8. ADAM 比 SGD 优化在哪里(不会,没背这块)介绍一下梯度下降
9. 回归任务常用的 LOSS(我还搞成了自回归,然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵,连续值用 MSE)然后问我二分类用什么,我说 BCE。
10. 用 ADAM 的话,怎么预估 SFT 的显存占用?(这个问题好高频啊,感觉现在很喜欢问这种预估显存占用的问题。。。,我也没怎么回答,不太会)
时间太久了,就随便反问了一下。
全部评论
当作面试一样回答一下这些问题: 1. 子序列两层for循环,if s[i] == s[j]: dp[i][j] = dp[i - 1][j - 1] + 1 else : dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]) 2. xx 3.xx 4. lora, p tuning v1 v2, adapter tuning, prefix tuning. 5. 绝对,相对位置编码, Rope旋转位置编码 6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同) 7. 不知怎么答 8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差) 9. 交叉熵损失 10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了) 欢迎补充点评
4 回复 分享
发布于 2024-08-14 14:32 广东
这个确实强
2 回复 分享
发布于 2024-08-10 10:32 江苏
大佬真厉害
2 回复 分享
发布于 2024-08-10 09:00 江苏
还问了 attention 公式,为什么要除以根号 dk,为什么会发生梯度消失或者梯度爆炸?(就是经常被问但是答不好)
2 回复 分享
发布于 2024-08-08 01:56 江西
Adam结合了动量和RMSProp,可以对参数进行自适应的学习率调整,训练初期收敛更快。SGD需要手动调整学习率,在最小值平坦区域收敛变慢(摘抄自CSDN)
1 回复 分享
发布于 2024-08-19 16:24 北京
参加的都是大神云集
1 回复 分享
发布于 2024-08-10 16:13 江苏
周五也要面快star了
1 回复 分享
发布于 2024-08-07 21:43 北京
佬很厉害了,能求个快star进面的bg么
点赞 回复 分享
发布于 2024-08-09 09:25 浙江
八股还是要好好准备,一知半解不太行,被挂了。
点赞 回复 分享
发布于 2024-08-08 15:27 河南
是线上IDE还是本地呢,题目的话是会给图片还是念呢
点赞 回复 分享
发布于 2024-08-08 10:30 北京

相关推荐

有很多问题,求大佬们解答,谢谢大佬们:不知道现在该怎么投实习,该怎么准备内心很纠结学校课程和实习到底怎么选择, 自己也不想课程学业这边出问题, 是不是只能投暑期实习,具体时间该怎么安排前端面试也需要准备算法么, 自己的算法能力很薄弱, 面试题需要准备到什么程度?没有ai项目经验的话,我该如何去补充,如何去找好的ai项目
smile丶snow:1.简历尽量一页,比如教育经历那里,全日制,计算机学院这些可以去掉没啥用好浪费空间。 熟悉三件套就没必要写了吧。js基本上是这样写 * JavaScript核心:深入理解 JS 运行机制(事件循环 Event Loop、微任务/宏任务),熟练掌握 Promise/Async 异步编程 模型。 熟悉可以改成熟练掌握。组件库写一个ant感觉就行,多写了浪费空间。 旅游项目是不是jonas的natours啊,我之前简历也有这个。我之前是这样写的 全栈思维: 熟悉 Node.js/Express 后端架构,掌握 MongoDB 数据库设计与聚合查询 工程化我觉得还是少些吧,不写就问的少,如果你真的了解的话可以写。 1.实习的话推荐大厂官网和aoob上面投,我自己有写一个校招网站的小网站可以直达~github主页上面有,顺便求个关注( 2.大三下一般课程比较少了吧,如果学校比较严的话可以多沉淀一会,如果不太严可以请dai课然后去实习,尽量找个近一些的就行。暑期实习不是暑假才实习哦,基本是上3月底4月初发offer就可以过去了,然后大概暑假的时候走转正流程答辩。 3.大厂算法题+js手写体。hot100+常见的比如数组转树,Promise.all,deepClone,之类 js手写都不难其实。算法看自己能力吧,我其实算法能力也不行。 4.自己平时没有用AI Coding吗?自己想一下怎么让AI帮你更好的写代码~比如Skill的诞生,OpenSpec的诞生,不都是我们想让AI更好帮我们写代码吗。
我的实习日记
点赞 评论 收藏
分享
评论
26
74
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务