2024-08-07 16:21 北京大学自然语言处理发布于江西

关注

快 STAR 大模型应用面经

一开始会以为问的很难，然后还是集中在项目，八股也比较常见，虽然问的还挺深，我没答出来很多。
1. 先写题，dp，两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别？三角函数位置编码和 ROPE 公式很像啊，他们是怎么实现不同的功能？（一个加 embedding 一个加 KQV，但是公式很像但是推理完全不一样吧，不太会答）
8. ADAM 比 SGD 优化在哪里（不会，没背这块）介绍一下梯度下降
9. 回归任务常用的 LOSS（我还搞成了自回归，然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵，连续值用 MSE）然后问我二分类用什么，我说 BCE。
10. 用 ADAM 的话，怎么预估 SFT 的显存占用？（这个问题好高频啊，感觉现在很喜欢问这种预估显存占用的问题。。。，我也没怎么回答，不太会）
时间太久了，就随便反问了一下。

全部评论

推荐最新楼层

Gold知难而进

深圳大学算法工程师

当作面试一样回答一下这些问题： 1. 子序列两层for循环，if s[i] == s[j]: dp[i][j] = dp[i - 1][j - 1] + 1 else : dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]) 2. xx 3.xx 4. lora, p tuning v1 v2, adapter tuning, prefix tuning. 5. 绝对，相对位置编码， Rope旋转位置编码 6. 从输入开始，一个是绝对位置编码一个是Rope编码。经过embedding层后，transformer decoder直接输入注意力层，而llama则是先经过norm，一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm，对于注意力层，llama是GQA而transformer decoder是MHA，再经过FFN层，FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu，（就想到这些，不知道还有没有不同） 7. 不知怎么答 8. SGD ， w = w - lr * gradient， Adam引入了一阶动量与二阶动量（方差） 9. 交叉熵损失 10. 假设dB参数的大模型，模型与梯度半精度fp16保存，一个参数两个字节，则占用2d G + 2d G = 4d G显存，优化器如果用adam，fp32保存模型权重备份，动量与方差，则占用3 * 4 * d G = 12d G显存，对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行，张量并行之类的可能会继续问了）欢迎补充点评

4 回复分享

发布于 2024-08-14 14:32 广东

米哈游金牌内推官

米哈游_人力资源管理_HR(准入职员工)

这个确实强

2 回复分享

发布于 2024-08-10 10:32 江苏

游卡校园招聘部HR_主页内推

上海交通大学算法工程师

大佬真厉害

2 回复分享

发布于 2024-08-10 09:00 江苏

找不到实习的大摆子

楼主

北京大学自然语言处理

还问了 attention 公式，为什么要除以根号 dk，为什么会发生梯度消失或者梯度爆炸？（就是经常被问但是答不好）

2 回复分享

发布于 2024-08-08 01:56 江西

zz009

北京航空航天大学算法工程师

Adam结合了动量和RMSProp，可以对参数进行自适应的学习率调整，训练初期收敛更快。SGD需要手动调整学习率，在最小值平坦区域收敛变慢（摘抄自CSDN）

1 回复分享

发布于 2024-08-19 16:24 北京

27求个offer

门头沟学院 Java

参加的都是大神云集

1 回复分享

发布于 2024-08-10 16:13 江苏

RZ_Q

西安交通大学算法工程师

周五也要面快star了

1 回复分享

发布于 2024-08-07 21:43 北京

fffggc

门头沟学院算法工程师

佬很厉害了，能求个快star进面的bg么

点赞回复分享

发布于 2024-08-09 09:25 浙江

找不到实习的大摆子

楼主

北京大学自然语言处理

八股还是要好好准备，一知半解不太行，被挂了。

点赞回复分享

发布于 2024-08-08 15:27 河南

Oliviak

马鞍山学院算法工程师

是线上IDE还是本地呢，题目的话是会给图片还是念呢

点赞回复分享

发布于 2024-08-08 10:30 北京

03-27 16:28

华中科技大学 Java

京东一二面面经

一面redis 的常见操作java 创建线程的方式线程池参数:核心线程数的合理数量?实际生产如何调整?Java 创建线程池如何创建?有哪些方法？事务管理：有用过 Spring 事务吗？一般怎么使用？（@Transactional）什么情况下会导致事务失效？事务的传播机制有哪些？实习无手撕二面二面主要我问了实习，聊了聊性格30min左右后续：二面挂，当时面试官还说祝我后续流程顺利，我服了

查看7道真题和解析

点赞评论收藏

03-25 17:41

长春电子科技学院前端工程师

27届大三下, 想去找实习比较迷茫,不知道该怎么准备,求大佬们指点一下~

有很多问题,求大佬们解答,谢谢大佬们:不知道现在该怎么投实习,该怎么准备内心很纠结学校课程和实习到底怎么选择, 自己也不想课程学业这边出问题, 是不是只能投暑期实习,具体时间该怎么安排前端面试也需要准备算法么, 自己的算法能力很薄弱, 面试题需要准备到什么程度?没有ai项目经验的话,我该如何去补充,如何去找好的ai项目

smile丶snow：1.简历尽量一页，比如教育经历那里，全日制，计算机学院这些可以去掉没啥用好浪费空间。熟悉三件套就没必要写了吧。js基本上是这样写 * JavaScript核心:深入理解 JS 运行机制(事件循环 Event Loop、微任务/宏任务),熟练掌握 Promise/Async 异步编程模型。熟悉可以改成熟练掌握。组件库写一个ant感觉就行，多写了浪费空间。旅游项目是不是jonas的natours啊，我之前简历也有这个。我之前是这样写的全栈思维: 熟悉 Node.js/Express 后端架构，掌握 MongoDB 数据库设计与聚合查询工程化我觉得还是少些吧，不写就问的少，如果你真的了解的话可以写。 1.实习的话推荐大厂官网和aoob上面投，我自己有写一个校招网站的小网站可以直达～github主页上面有，顺便求个关注（ 2.大三下一般课程比较少了吧，如果学校比较严的话可以多沉淀一会，如果不太严可以请dai课然后去实习，尽量找个近一些的就行。暑期实习不是暑假才实习哦，基本是上3月底4月初发offer就可以过去了，然后大概暑假的时候走转正流程答辩。 3.大厂算法题+js手写体。hot100+常见的比如数组转树，Promise.all,deepClone,之类 js手写都不难其实。算法看自己能力吧，我其实算法能力也不行。 4.自己平时没有用AI Coding吗？自己想一下怎么让AI帮你更好的写代码～比如Skill的诞生，OpenSpec的诞生，不都是我们想让AI更好帮我们写代码吗。

我的实习日记

点赞评论收藏