算法打工人小旺

08-09 13:30 中山大学算法工程师发布于山东

关注

快手．大模型应用一二面

🍓一面时长约50min，面试官很和蔼，体验感还不错。
1．面试官先简单介绍了下团队，然后是自我介绍；
2．拷打了一下项目和论文；
3．为什么多头注意力能提升表达能力？
4．为什么要在大模型中使用 RMSNorm ？和 LayerNorm 有什么差异？
5.LoRA和 PromptTuning 有何区别，分别适用于什么场景？
6．模型微调时遇到过过拟合吗？怎么处理的？
7．大模型推理时的加速思路？
8.KV Cache 是怎么起作用的？为什么对长上下文推理很关键？算法题手撕：
字符串的全排列。
二叉树序列化与反序列化。
✅面试感受：整体提问节奏比较平稳，面试官很有亲和力，有的地方卡住了还会给提示。
🍓二面时长约40min，主要是针对简历进行深挖。
1．自我介绍。
2．深挖项目，针对项目思路不断追问。
3．大模型生成内容如何做去重过滤？
4．如果词表特别大（10w+ token ), Softmax 加速通常有哪些实现？
5．如果要在中文领域做 Instruction Tuning ，需要注意哪些数据问题？
6．反问
✅面试感受：二面的氛围和一面截然不同，面试官提问非常犀利，没有太多套路问题，并且对细节很关注。
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

上海交通大学算法工程师

同学，瞅瞅我司，医疗独角兽，校招刚开，名额有限，先到先得，我的主页最新动态，绿灯直达，免笔试～

1 回复分享

发布于 08-28 19:38 广东

11-17 19:37

湖南大学行政专员/助理

2025年生成式AI工业应用：技术突破与产业变革全景

2025年生成式AI工业应用：技术突破与产业变革全景引言生成式AI正在重塑全球产业格局，2025年成为其深度融入工业体系的关键转折点。根据最新数据，我国生成式AI用户规模已达5.15亿人，较2024年实现半年翻番，普及率攀升至36.5%11。商汤科技年报显示，其生成式AI业务收入突破24亿元，同比激增103.1%，连续两年保持三位数增长10。本文将系统解析生成式AI在工业领域的核心技术架构、典型应用案例及未来发展趋势，为产业数字化转型提供实践指南。一、生成式AI的核心技术架构1. 基础模型体系生成式AI已形成"基础大模型-领域专用模型-工业微调模型"的三级技术架构。国内企业...

点赞评论收藏

分享

11-11 08:10

江苏科技大学 Java

百度大模型后端一面一周挂...

1.拷打实习、项目2.get和post的区别3.tcp和udp区别4.一个进程可以同时监听tcp udp的8080端口吗5.join的几种方式区别6.redis和mysql的区别7.redis事务8.线程池核心参数、拒绝策略9.常用的锁10.互斥锁和自旋锁11.平时遇到过死锁吗12.cms g113.docker是什么14.docker怎么看容器日志15.慢查询优化16.select poll epoll17.端口是什么18.mysql索引19.mysql隔离级别分别解决什么问题20.进程和线程区别21.RDB和AOF22.synchronized和reentrantlock的区别23.反转链表

查看23道真题和解析

点赞评论收藏

分享

11-17 16:32

已编辑

西安交通大学算法工程师

大模型offer选择｜重金求相关团队信息

投票

offer1:京东基座后训练，打听过leader信息，人品还行，但是整个团队强度大，给的也很高，85w左右offer2:1688，做大模型应用，未开奖，找不到人问团队氛围以及强度，现在重金求1688信息，信息有效给大佬发红包

点赞评论收藏

分享

11-12 22:05

门头沟学院 Java

小米日常实习大模型面经

项目介绍+拷打1.每一步骤以后获得回答的变化，*在项目里sft和rlhf后大模型回答有什么变化，举例说明2.sft和 rlhf的作用有什么区别3.*sft如果用 dpo的chosen回答直接做sft的话还需要 rhf吗?八股1.sft有哪些方式?除了lora还有哪些?lora中为什么低秩矩阵是能够表示增量的?怎么初始化的?为什么要这么初始化?2.ppo、grpo、dpo(critic model和rewardmodel，哪个是未来价值，组内相对优势怎么计骎算，*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答coding(二选一)1.手撕 transformer，输入一个矩阵然后输出经过transformer块以后的结果，不能使用torch，只能使用 numpy2.非 hot100 leetcode困难地下城游戏

查看7道真题和解析

点赞评论收藏

分享

11-20 18:15

山东大学算法工程师

阿里通义大模型算法二面已凉凉

1.实习介绍2. Lora 原理(核心是低秩分解:将原始权重更新近似为两个低秩矩阵乘积，减少参数量，保留主导方向，训练高效)3.了解 DeepSpeed 吗，ZeRO -1, ZeRO -2和 ZeRO3分别做了哪些优化(1优化优化器状态，2优化梯度，3切分参数，全面节省显存)4. Qwen的模型结构是怎么样的，相比于 LLaMA,DeepSeek 有什么区别(Qwen采用GQA+SwiGLU+RMSNorm，和LLaMA架构非常相似，差异在训练数据和tokenizer中文支持更好;DeepSeek只用MoE/MLA架构，Qwen系列主要是Dense模型)5.怎么缓解大模型的幻觉问题(RAG，RLHF对齐，事实监督)6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方，DeepSeekMoE为什么效果好，有什么值得我们借鉴创新点(MoE面临负载不均衡、训练不稳定问题;DeepSeekMoE通过细粒度专家和共享专家设计提升稳定性和效果)7.知道FP16和BF16有什么区别吗，包括FP32和INT8这些，在训练大模型的时候，应该怎么选择(FP16精度高但易溢出，BF16动态范围大;训练常用BF16混合精度，推理用INT8量化加速)8.讲-下 RLHF 的流程，写-下 PPO和 DPO的 Loss表达式(训练奖励模型后用PPO/DPO优化策略:PPO Loss: policy ratio + KL 约束/ DPO Loss: logit preference diff + sigmoid binary loss)9.对于超长上下文业界一般是怎么做的，你知道 Qwen是怎么做的吗(业界常用ROPE 变体/滑动窗口注意力/稀疏注意力等:Qwen使用YaRN和窗口注意力扩展上下文)10.开放题:你觉得目前大模型的上限在哪里(推理能力、长期记忆、具身交互和能耗效率，需要架构创新和多模态融合突破)11.代码:152.乘积最大子数组

查看9道真题和解析

点赞评论收藏

分享

评论

6

49

全站热榜

更多

数字马力交流圈

热聊中

华为进展交流圈

热聊中

创作者周榜

更多

正在热议

更多

# 找工作能把i人逼成什么样 #

3188次浏览 36人参与

# 腾讯音乐求职进展汇总 #

142876次浏览 1031人参与

# 百融云创求职进展汇总 #

10333次浏览 141人参与

# 0经验如何找实习？ #

12506次浏览 252人参与

# 最难的技术面是哪家公司？ #

59921次浏览 934人参与

# 你今年做了几份实习？ #

3563次浏览 62人参与

# 实习心态崩了 #

93613次浏览 487人参与

# 你找工作经历过哪些骗局？ #

4600次浏览 89人参与

# 你开始找寒假实习了吗？ #

6819次浏览 116人参与

# 字节出了豆包coding模型 #

4403次浏览 45人参与

# 实习越久越好，还是多多益善？ #

9899次浏览 84人参与

# 25年找工作是什么难度？ #

6909次浏览 73人参与

# 一上班就想____，这正常吗？ #

2316次浏览 53人参与

# 刚工作，应该先搞钱or搞成长？ #

4093次浏览 62人参与

# 离职你会和父母说吗？ #

5553次浏览 77人参与

# 实习必须要去大厂吗？ #

167580次浏览 1656人参与

# 你是怎么和mt相处的？ #

82251次浏览 435人参与

# 你的实习什么时候入职 #

323395次浏览 2192人参与

# 产品每日一题 #

73307次浏览 659人参与

# 第一次面试 #

1029569次浏览 13674人参与

# 顺丰求职进展汇总 #

71758次浏览 340人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务