1. 自我介绍2. Qwen3.5 这类新一代模型,如果不只停留在“Transformer 变体”更有含金量的讲法不会只说它是 Decoder-only,而是会落到训练稳定性、推理效率和长上下文适配这三条线上。比如归一化方式、注意力结构、RoPE 扩展策略、GQA 对 KV cache 的影响、SwiGLU 对表达能力的提升,以及 tokenizer 和多语种兼容设计。面试官真正想听的是这些结构选择为什么出现,它们解决了什么具体问题,而不是模块名背诵。如果要再深一点,可以顺手带出工程后果。比如 GQA 不是为了论文好看,而是为了在长生成场景下降 KV cache 占用;长上下文扩展也不是简单把...