不愿吃饼的少年很活泼

03-20 20:31 同济大学算法工程师发布于上海

关注

百度 - 大模型后训练实习生二面

📍面试公司：百度

🕐面试时间：2026.03.20

💻面试岗位：文心一言后训练

❓面试问题：

自我介绍，教育背景，项目，和实习（两段本科Java web实习，没有后训练实习经验）
GRPO训练的数据流
KL散度的计算公式，怎么做平滑
softmax的计算公式，怎么防止数值爆炸，有什么影响
GRPO里的$\pi_\theta$, $\pi_\theta_{old}$, $\pi_\theta_{rollout}
GRPO里是off-poliy/on-policy，当batch_size非常大时，如何缓解off-poliy的问题？
平时使用vibing code的频率，以及使用的模型有哪些？
了解TRL，VERL吗？
transformers，pytorch库使用频率
编程题：使用transformers，pytorch实现Qwen2模型的SFT训练
反问：
实习base - 上海
实习薪资 - 250+20
业务方向 - 后训练，开源生态，科研导向

🙌面试感想：

薪资太低
GRPO训练的工程实践匮乏

#发面经攒人品#

全部评论

推荐最新楼层

胖墩墩的废话选手想当offer收割机

National University of Singapore 算法工程师

这个薪资正常吗...感觉太少了吧

点赞回复分享

发布于 03-22 22:39 浙江

03-16 19:00

同济大学算法工程师

蔚来大模型强化学习训练一面

📍面试公司：蔚来🕐面试时间：2026.03.16💻面试岗位：大语言模型强化学习算法实习生❓面试问题：自我介绍项目经历1，拷打项目动机，方法细节，评测方式，遇到的难点和解决方式，提出的方法为什么有效强化学习算法理论基础，介绍PPO算法，算法计算公式，优点，训练流程，介绍GRPO算法，特点，优势有关强化学习算法的代码库，TRL，VERL，Ray等询问对于Agentic RL 的认识，其中可能存在的难点，答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性编程题，word1->word2的最小操作次数🙌面试感想：自我介绍吟唱时间太长，适当压缩为教育背景，研究背景，项目/实习经历的简单介...

查看7道真题和解析

点赞评论收藏

分享

04-16 19:20

门头沟学院算法工程师

阿里健康大模型日常实习一面凉经

面试很难，还是要多多练习，感觉自己说不明白业务逻辑项目：1. 优质数据的标准，量化细则2. 上线指标，以及效果测评3. 数据蒸馏过程，清洗细节八股：1. DPO原理，损失函数，推导过程2. TRPO PPO GRPO原理介绍3. 其他rl的变种模型手撕：现场发邮件，在线ide手撕lc698 划分为k个相关的子集

查看7道真题和解析

点赞评论收藏

分享

04-15 14:31

中南大学算法工程师

Agent 核心技术（重中之重）

1. 推理与执行范式ReAct（必学）：Reasoning → Acting → ObservingCoT（思维链）、Plan&Execute、Reflection（反思）任务拆解、多轮决策、异常处理2. 记忆系统（Memory）短期记忆：对话上下文、会话管理长期记忆：向量数据库（必学）Milvus、Weaviate、FAISS、Chroma、Pinecone记忆归档、遗忘策略、用户画像3. RAG（检索增强生成）（必学）文档切分、Embedding 模型（text-embedding-3、bge、m3e）向量检索、混合检索（关键词 + 语义）重排序（Reranker）、上下文压缩生产级 RAG 优化（准确率、召回率、延迟）4. 工具调用（Tool Use）内置工具：搜索、计算器、代码解释器外部 API：邮件、日历、ERP、爬虫、支付MCP（Model Context Protocol）（2026 标准）工具安全、权限、结果校验5. Agent 框架（至少精通一个）LangChain + LangGraph（主流、工作流 / 循环）LlamaIndex（知识库 / RAG 强）AutoGen / CrewAI（多智能体协作）AutoGPT、MetaGPT、Devika（垂直领域）

想从事Agent应该学习...

点赞评论收藏

分享

04-20 09:40

门头沟学院算法工程师

阿里暑期agent算法二面 1h 攒人品

面试很难，还是要多多练习，感觉自己说不明白业务逻辑1.实习 模型选型 function call流程 dpo优缺点2.Agent是怎么选择工具的3.对于一个边界不好定义的场景，类似skill这种形式不能很好区分场景披露工具，怎么办 sft和rag的适用场景4.RAG系统整体流程 对于不同类型的文档分块策略5.重排策略的选择 如果开发一个Agent，web socket和另一个什么选哪个6.ai coding，对于一个客服Agent，当前的奖励函数有：Reward 7.hacking问题、稀疏问题、区分度太大问题（只有完全正确和错误），请设计新的reward解决至少两个，并且列5个case，其中需要包含边界和可能Reward hacking的case

查看6道真题和解析

点赞评论收藏

分享

04-28 11:20

门头沟学院算法工程师

字节抖音搜推大模型算法面经分享

被挂了，希望发出来对大家有帮助！1.项目深挖2.做了哪些优化？3.数据不均衡的话，对f1 score，acc这些指标有什么影响4.LoRA的原理。5.有用过qwen系列的模型吗？6.你认为decoder only的模型在分类等任务上有可能比encoder only的做得更好吗7.如果loss下降了，但f1等指标不涨，如何排查和解决？8.手撕：由01组成的二维矩阵，返回全由1组成的最大正方形的面积

查看8道真题和解析

点赞评论收藏

分享

评论

1

6

招聘动态

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

18006次浏览 167人参与

# 字节开奖 #

148473次浏览 657人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

47124次浏览 513人参与

# 如果春招能重来，我会___ #

19074次浏览 202人参与

# 刚工作的你，踩过哪些坑？ #

46373次浏览 295人参与

# 除了线上，还能去哪些地方投简历 #

10563次浏览 110人参与

# 薪资爆料 #

421320次浏览 2221人参与

# HR问：你期望的薪资是多少？如何回答 #

99072次浏览 830人参与

# 一份好的简历长什么样？ #

41751次浏览 505人参与

# 你面试被问到过哪些不会的问题？ #

122174次浏览 1944人参与

# 今年形式下双非本找得到工作吗 #

328407次浏览 1774人参与

# 诺瓦星云求职进展汇总 #

258671次浏览 1743人参与

# 你觉得实习能学到东西吗 #

153833次浏览 1491人参与

# 职场破防瞬间 #

381476次浏览 2847人参与

# 双非本科求职如何逆袭 #

1644677次浏览 13050人参与

# 26届校招投递进展 #

669866次浏览 3953人参与

# 滴！实习打卡 #

844851次浏览 6876人参与

# 实习最晚的一次下班是几点 #

35756次浏览 171人参与

# 秋招疯了，看什么都像offer #

65150次浏览 362人参与

# 你的公司给实习生发中秋礼物吗 #

17426次浏览 55人参与

# 大家每天通勤多久？ #

119547次浏览 1656人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务