美团大模型研发二面-日常实习

项目和八股
1.grpo哪个阶段最耗时
2.rollout采样
3.使用过 verl 框架吗
4.verl 框架为什么需要重新 forward 计算 log probs
5.dapo 的几个创新
- clip-higher
- Dynamic Sampling
- token级别优势计算
6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的
- 推理主要分为两个阶段  prefill+decoder
- 量化:用低精度比如int8保存 参数 激活值  KVcache
- KVCache 量化(vllm也采取了pageAttention,将KV cache当成虚拟内存+页表 按照固定的page进行管理)
- GQA
- flash attention
 反问
全部评论
verl 框架为什么需要重新 forward 计算 log probs咋回答的
点赞 回复 分享
发布于 昨天 22:02 湖南

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务