1、Attention本质是什么?从向量空间变换角度解释 2、多轮对话中Attention如何导致历史信息衰减? 3、SFT数据清洗的具体流程?遇到低质量数据怎么处理 4、RAG的chunk优化策略有哪些?怎么评估检索相关性 5、DPO训练中的梯度爆炸问题如何解决? 简历项目深挖: 1、多工具调度模块如何解决冲突检测? 2、工具调用超时后的降级方案设计 3、自主构建的评估数据集规模?bad case分析维度 4、微调Qwen时如何设计learning rate scheduler 5、Prompt优化模块的A/B测试方案