大模型面经(第一期)

因为又被运营约稿了,然后也老被催更新,

所以趁着放假就更新一下,这篇就写怎么去面试,怎么去准备大模型吧,

这里也很有意思,这个牛客网在boss上来要我简历了,后面加了微信不过他们只要2-4年的资深大模型工程师。

那么直接开始吧,本来打算早点更新的,不过嘛,下班之后一直在打游戏,对此只能说三角洲太好玩了,琳琅天上还是当年模样,

好玩,想起小学时代玩的qq飞车了(时代眼泪了算是,现在人估计都没听过这个游戏了何况会去玩呢,真怀念那会边听歌边跑图)

一晃便过去一个时代,这时间若白驹过隙,所以啊,诸君当是要珍惜时间和家人,不要太看重工作。

先随便讲点吸引大伙注意力,那么直接开始今天的教程。

先叠甲:以下的问题,基本上都是我面试面出来的,很可能跟你理解的会有出入,或者会让你感到惊讶。

5.6(无实习):

面试刚开始的时候:

一家小厂:

先做个自我介绍(一般上都有这么个流程,大伙尽量简短,然后要说明自己已经介绍完了,着重说明优势在哪里,我开局就说我有两年开发经验,然后一般人家就会开始问了)

你觉得agent是什么?

你有没有什么常用的ai?

你知道GPT和BERT的区别是什么吗?(就语言推理和双向模型,具体自个去看,这里先做总结,毕竟篇幅有限难以面面俱到)

请问cot是什么?

请问function call现在用在那里?(就上下文召回和函数调用)

问了下我的项目,你自己研究的模型?

我说整体架构我做的,调用的是deepseek-r1-7b这个,

为什么用这个?

废话,电脑只能带的动这个,qwen3-32B下载下来都要400多G,何况跑起来。

请问整体模型微调步骤是什么?

请问deepspeed-Zero是什么?(加速推理的东西,自己去看)

两天后oc,

一家远程:

先自我介绍。。。。。。

首先给我来了一手小小的面试官自我介绍(就是接入LLM做了数据库,然后人在西海岸拉投资,西雅图的硅谷,并不是HK,大伙估计不知道有这么个区别,我讲清楚)

你知道ppo是什么吗?

请问RL和DPO的区别是什么?

请问megatron怎么用?

请问有没有用过云计算?

假如你加入我们可以干多久,然后是否熬夜对进度?(因为美国和中国存在时差)

你的agent怎么样?

用没用过fastapi?

你觉得和spring的tomcat区别是什么?

为什么不考虑AWS?(原因很简单,要钱,懒得租人家的)

第二天上午oc,因为说了8月份才给工资原因是他们手上没钱,估计是8月份拿到投资给期权之类的,这懒得打白工加上手上几家offer直接不管他了。

一家中厂:

这里说清楚,如果公司让你去线下面试,直接问能不能远程线上面试,不行就不去,真给他脸了,你来回要时间,万一挂了也难受,

这些人就故意恶心人的,我操tm的开个腾讯会议都不愿意这家公司你去了也干的不顺心懂吗。

问了学习的方向,我说专业分流到人工智能方向,

问了cnn,RNN是什么(卷积神经网络,和随机神经网络,去搜网课看看就行,他考的基本都不难就知道这个怎么算的就行了)

然后介绍了公司干什么,一家做金融,估摸着是外包,然后去了可以学债券金融之类的,然后可以给证券公司内推之类的。

不用管,这些钱才是真的,工资没人家高,150一天,boss看着100到499个人,完事还在广州不考虑这家。

然后问了场景题,你现在想做一个评论搜集的功能你要怎么做?(就是控评,我说了怎么洗数据,怎么采样,然后权重比,然后加个关键字过滤之类的)

然后问你项目里面怎么做到把90%的准确率的,我直接实话实说,想让简历更好看点所以就写了个这个,实际上测了40轮,大概准确到36轮左右。

那个hr直接认可坦率与真诚哈哈哈。

第三天上午发了offer。

那么这期先写到这里了,先吃饭先。这里再推荐一首Por Una Cabeza跳舞的小曲~。可以去听听看,最后希望这首歌能给你带来好心情。后面还会写面经,大伙点个关注先,想看随时可以看到,然后想要路线的,直接私信我就行,最近又更新了一版学习路线。

#牛客激励计划##牛友故事会##创作激励计划##牛客创作赏金赛##面试经验谈#
全部评论
这是找实习啊
点赞 回复 分享
发布于 06-03 15:51 河南
现场面试这种公司纯恶心人,从来没去过,来回的时间成本+面试等待时间成本+不确定性,一个会议明明就可以解决面试问题+代码考察非要现场面试,这样的公司纯cs
点赞 回复 分享
发布于 06-03 15:38 北京
点赞 回复 分享
发布于 06-03 13:32 北京
佬,膜拜了
点赞 回复 分享
发布于 06-03 11:49 北京
楼主面了多少家呀
点赞 回复 分享
发布于 06-03 10:08 广东
这是真佬
点赞 回复 分享
发布于 06-03 10:07 山东
MARK
点赞 回复 分享
发布于 06-01 23:40 广东

相关推荐

1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
评论
25
24
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务