1. 自我介绍2. Transformer 里 Attention 的本质是什么,为什么它适合 Agent 场景Attention 本质上是在做动态加权的信息选择,模型不是把所有上下文平均看,而是根据当前 query 去分配不同 token 的影响力。它的优势在于能处理长距离依赖,并且支持内容寻址,这对 Agent 场景很关键,因为 Agent 经常要从长历史、工具返回和外部知识里挑出当前最有用的信息。真正落地时,Attention 的问题不在“能不能看远”,而在“看得太多以后会不会被噪声拖偏”。3. 在多轮对话 Agent 中,Attention 的局限性体现在哪些方面局限性主要体现在三个地...