项目和八股 1.grpo哪个阶段最耗时2.rollout采样3.使用过 verl 框架吗4.verl 框架为什么需要重新 forward 计算 log probs5.dapo 的几个创新- clip-higher- Dynamic Sampling- token级别优势计算6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的- 推理主要分为两个阶段 prefill+decoder- 量化:用低精度比如int8保存 参数 激活值 KVcache- KVCache 量化(vllm也采取了pageAttention,将KV cache当成虚拟内存+页表 按照固定的page进行管理)- GQA- flash attention反问