03-10 07:20 门头沟学院推荐算法

关注

阿里大模型算法校招面经攒人品版

攒人品中，祝大家都能拿到满意的Offer！
1.Transformer中Attention的本质是什么？你能从数学角度简要解释一下吗？
2.在Agent多轮对话任务中，你觉得Attention的局限性体现在哪些方面？
3.简要介绍一下SFT的核心流程，以及数据集的构建策略，SFT之后常见的Post-Training还有哪些？它们之间的目的有何区别？
4.什么是RAG，它是怎么提升生成质量的？与传统检索＋模型生成的流程有何不同？如何评估一个RAG系统是否work的？
5.PPO和DPO在大模型对齐中的主要区别是什么？DPO训练通常有哪些注意事项？用过GRPO么？
6.项目里的Modular Agent，你能讲讲它是如何实现多步规划的吗？
7.项目提到了多个工具调用链路，调度策略是如何设计的？是否有异常fallback策略？
8.Agent评估体系包括哪些维度？如何衡量planning能力 vs hallucination rate？
9.项目里微调Qwen，选择的训练阶段和Loss函数是如何决定的？
10.Prompt自动推荐模块用了哪些优化策略？有没有尝试过Prompt压缩或embedding表示的方式？
11.场景题：假如一个Agent 推理链路包含3个工具+高频请求，系统整体延迟较高，你会如何优化？
12.代码：岛屿数量

全部评论

推荐最新楼层

03-17 11:30

拼多多集团-PDD_服务端研发工程师(准入职员工)

那份架构文档，我改到了第五版

周三下午，我在飞书文档里点击了"发送"。 这是我负责的订单查询服务重构方案的第一版。文档里写满了我这两周的思考：接口设计、数据库表结构、缓存策略，还有一张用 draw.io 画了整一个下午的架构图。 半小时后，导师在文档里留下了第一条评论。 "方案的基本思路没问题，但你有没有想过，如果数据库主库挂了怎么办？" 我愣了一下。文档里确实没有写容灾方案。 "还有，"导师又补充了一句，"缓存失效的时候，流量会直接打到数据库上，你觉得能扛住吗？" 我打开监控平台，看了看现有系统的流量曲线。那条持续攀升的曲线让我意识到，我想得...

拼多多集团-PDD成长空间 1354人发布

点赞评论收藏

分享

03-10 19:55

门头沟学院人工智能

Agent实习一面阿里国际感觉好难啊

给我面没招了，发点面经攒攒人品～1*当大模型产生错误回答或幻觉时，在工程和算法层面有哪些规避手段？2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么？在模型对齐（如 PPO/DPO）中起什么作用？4* MoE架构的具体实现原理是什么？路由（Router）是如何工作的？5* 面对模型在生成过程中出现循环、重复回答的问题，有哪些解决办法？6* BM25 算法的数学原理是什么？它相比于简单的 TF-IDF 有哪些改进？7* Agent 系统中的LangGraph是如何搭建的？其 Memory 组件的工作机制是怎样的？8* 如果单次生成的任务量远大于模型的 Max Tokens 限制，如何实现断点继续生成？9* Transformer 中 Attention 的本质是什么？请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别？12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案？13* 在 Agent 多轮对话任务中，Attention 机制的局限性体现在哪些方面？14* 为什么模型在长上下文对话中容易出现“信息遗忘”？有哪些缓解机制？15* 介绍 SFT的流程，以及如何构建高质量、多样化的数据集？16* 在什么业务场景下，必须引入 RLHF 或 DPO 这种偏好对齐技术？17* MinerU 在解析复杂的工业文档（如图文混排）时，具体的处理逻辑是怎样的？18* 在多模态检索中，文本和图片是如何映射到同一个统一向量空间的？19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么？20* 相比于 LangChain，LangGraph 在处理循环任务和状态管理上有哪些优势？21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的？

点赞评论收藏

分享

03-12 10:26

吉林农业大学算法工程师

满帮集团大模型应用开发一面

1. xgboost 为什么叫梯度提升树因为它本质上就是：树：基学习器是 CART 回归树提升：一棵一棵往上加梯度：每一轮拟合的是损失函数对当前预测的负梯度普通提升树可以理解成拟合残差，XGBoost 是把“残差”推广成了更一般的梯度下降框架，而且用了二阶导信息，所以比传统 GBDT 更强。2. 知道什么概率模型？朴素贝叶斯，说一下贝叶斯的思想概率模型就是用概率分布描述数据和变量关系的模型，比如：朴素贝叶斯HMMCRFGMM贝叶斯网络贝叶斯思想就一句话：先验 + 数据 = 后验。公式：[P(A|B)=\frac{P(B|A)P(A)}{P(B)}]朴素贝叶斯做分类时，假设特征在给定类别下条件独...

AI-Agent面试实战...

点赞评论收藏

分享

03-11 23:50

门头沟学院推荐算法

腾讯大模型算法二面面经攒人品

有面试过同岗的朋友欢迎评论区交流1.GRPO 和 PPO 在 RLHF 中的核心区别是什么？2.KL 散度在 RLHF 中的作用是什么？它的公式如何直观理解？3.vLLM 的核心优势是什么？它是如何通过 PagedAttention 提升显存利用率的？4.Qwen3 和DeepSeek-R1 在架构上有哪些关键差异？5.微调数据集的结构是怎样的？有多少条？数据清洗和有效性验证是怎么做的？6.奖励函数是如何设计的？7.怎么避免模型靠堆字数刷奖励？8. KV Cache 在长上下文推理中可能被污染，你们有做缓存隔离或清理机制吗？9.本地部署时，如何平衡vLLM 的上下文长度和显存占用？是否做过量化或动态批处理？10.手撕：乘积最大子数组（LeetCode 152）

查看10道真题和解析

点赞评论收藏

分享

03-13 11:12

吉林农业大学算法工程师

上海极豆科技有限公司 AI-Agent 一面

1、简单讲一下，MCP 是什么？它和 function call 有什么区别？MCP，一般指 Model Context Protocol，本质上可以把它理解成一种让大模型和外部工具、外部数据源、外部能力进行标准化连接的协议。它不是单纯某一个函数调用接口，而是想解决“大模型怎么以统一方式发现工具、读取资源、调用能力、获取上下文”这个问题。如果只说直白一点，MCP 更像是给大模型接外部世界时定义了一套“通用插口”。比如一个 Agent 想访问数据库、文件系统、知识库、内部服务，如果每接一个系统都单独写一套协议，维护成本会很高。MCP 的思路就是把这些能力抽象成统一的协议层，让模型或 Agent ...

AI-Agent面试实战...

点赞评论收藏

分享

评论

1

3

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如何一边实习一边找下家？ #

28306次浏览 193人参与

# 面试官最爱问的 AI 问题是...... #

14845次浏览 510人参与

# MiniMax求职进展汇总 #

13871次浏览 228人参与

# 春招/暑实第一面是哪家？ #

18650次浏览 219人参与

# 你的嫡系AI是哪个？ #

3980次浏览 102人参与

# 跟HR说什么能被秒回？ #

8767次浏览 157人参与

# 巨人网络春招 #

9937次浏览 163人参与

# 现在入门AI应该走哪些方向？ #

3900次浏览 90人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

2770次浏览 85人参与

# 你收到了哪些公司的笔试？ #

16424次浏览 88人参与

# 巨人网络求职进展汇总 #

190689次浏览 1228人参与

# 巨人网络工作体验 #

74207次浏览 505人参与

# 不卡学历的大厂有哪些？ #

161443次浏览 685人参与

# 你现在的工作，是“成长”还是“消耗”？ #

8115次浏览 140人参与

361039次浏览 2915人参与

# 联想求职进展汇总 #

340699次浏览 2229人参与

# 实习生如何通过转正 #

129758次浏览 1475人参与

# 迅雷笔试 #

5392次浏览 27人参与

# 设计人秋招体验最好的公司 #

86023次浏览 743人参与

# 27届实习投递记录 #

4386次浏览 81人参与

# 电信求职进展汇总 #

45293次浏览 207人参与

# 重来一次，你会对开始求职的自己说 #

39529次浏览 436人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务