阿里大模型算法校招面经 攒人品版

攒人品中,祝大家都能拿到满意的Offer!
1.Transformer中Attention的本质是什么?你能从数学角度简要解释一下吗?
2.在Agent多轮对话任务中,你觉得Attention的局限性体现在哪些方面?
3.简要介绍一下SFT的核心流程,以及数据集的构建策略,SFT之后常见的Post-Training还有哪些?它们之间的目的有何区别?
4.什么是RAG,它是怎么提升生成质量的?与传统检索+模型生成的流程有何不同?如何评估一个RAG系统是否work的?
5.PPO和DPO在大模型对齐中的主要区别是什么?DPO训练通常有哪些注意事项?用过GRPO么?
6.项目里的Modular Agent,你能讲讲它是如何实现多步规划的吗?
7.项目提到了多个工具调用链路,调度策略是如何设计的?是否有异常fallback策略?
8.Agent评估体系包括哪些维度?如何衡量planning能力 vs hallucination rate?
9.项目里微调Qwen,选择的训练阶段和Loss函数是如何决定的?
10.Prompt自动推荐模块用了哪些优化策略?有没有尝试过Prompt压缩或embedding表示的方式?
11.场景题:假如一个Agent 推理链路包含3个工具+高频请求,系统整体延迟较高,你会如何优化?
12.代码:岛屿数量
全部评论

相关推荐

给我面没招了,发点面经攒攒人品~1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?9* Transformer 中 Attention 的本质是什么?请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务