1. 在LLM推理里,我们经常听到一个词叫prefill,能解释一下它是什么意思吗?2. 我们来聊聊Transformer的基础吧。能先介绍一下Softmax函数吗?然后整体讲讲Transformer模型,特别是里面的QKV(Query, Key, Value)机制,能详细说说这个过程吗?3. Transformer的训练复杂度还挺高的,尤其是在处理长序列时。你了解哪些工作是致力于降低它训练时间复杂度的?4. 长上下文(long context)是现在LLM的一个研究热点,你都知道有哪些方法可以解决或者缓解长下文问题?5. GQA(Grouped-Query Attention)的原理是什么?...