Agent实习一面 阿里国际 感觉好难啊
给我面没招了,发点面经攒攒人品~
1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?
2* 描述 Transformer Decoder 的完整解码流程。
3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?
4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?
5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?
6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?
7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?
8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?
9* Transformer 中 Attention 的本质是什么?请从数学角度解释。
10* 为什么在计算 Attention 时需要进行Scaling
11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?
12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?
13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?
14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?
15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?
16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?
17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?
18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?
19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?
20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?
21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?
2* 描述 Transformer Decoder 的完整解码流程。
3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?
4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?
5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?
6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?
7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?
8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?
9* Transformer 中 Attention 的本质是什么?请从数学角度解释。
10* 为什么在计算 Attention 时需要进行Scaling
11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?
12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?
13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?
14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?
15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?
16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?
17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?
18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?
19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?
20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?
21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
全部评论
相关推荐
昨天 08:50
门头沟学院 Java 沉淀小子:可能一个月8-10K的双非普通人才是我们的常态,不是每个人都可以去那些知名的大厂拿高薪资。比较是偷走幸福的小偷,我们只需要跟过去的自己竞争。博主讲的也折射到了我最近谈恋爱也会焦虑的地方,不过女朋友说我们都是普通人,现在已经很好了。
点赞 评论 收藏
分享
