淘天Agent一面
一、手撕和八股
1. 手撕岛屿数量,秒了
2. Transformer 中 Attention 的本质是什么?你能从数学角度简要解释一下吗?
3. 在 Agent 多轮对话任务中,你觉得 Attention 的局限性体现在哪些方面?
4. 简要介绍一下 SFT的核心流程,以及数据集的构建策略,SFT之后常见的 Post-Training 还有哪些?它们之间的目的有何区别?
5. 什么是 RAG,它是怎么提升生成质量的?与传统检索 + 模型生成的流程有何不同?你是如何评估一个RAG系统是否work的?
6. PPO 和 DPO 在大模型对齐中的主要区别是什么?DPO 训练通常有哪些注意事项?用过GRPO么?
二、、业务场景相关相关
假如一个 Agent 推理链路包含 3 个工具 + 高频请求,系统整体延迟较高,你会如何优化?
1. 手撕岛屿数量,秒了
2. Transformer 中 Attention 的本质是什么?你能从数学角度简要解释一下吗?
3. 在 Agent 多轮对话任务中,你觉得 Attention 的局限性体现在哪些方面?
4. 简要介绍一下 SFT的核心流程,以及数据集的构建策略,SFT之后常见的 Post-Training 还有哪些?它们之间的目的有何区别?
5. 什么是 RAG,它是怎么提升生成质量的?与传统检索 + 模型生成的流程有何不同?你是如何评估一个RAG系统是否work的?
6. PPO 和 DPO 在大模型对齐中的主要区别是什么?DPO 训练通常有哪些注意事项?用过GRPO么?
二、、业务场景相关相关
假如一个 Agent 推理链路包含 3 个工具 + 高频请求,系统整体延迟较高,你会如何优化?
全部评论
相关推荐