美团大模型研发二面-日常实习
项目和八股
1.grpo哪个阶段最耗时
2.rollout采样
3.使用过 verl 框架吗
4.verl 框架为什么需要重新 forward 计算 log probs
5.dapo 的几个创新
- clip-higher
- Dynamic Sampling
- token级别优势计算
6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的
- 推理主要分为两个阶段 prefill+decoder
- 量化:用低精度比如int8保存 参数 激活值 KVcache
- KVCache 量化(vllm也采取了pageAttention,将KV cache当成虚拟内存+页表 按照固定的page进行管理)
- GQA
- flash attention
反问
1.grpo哪个阶段最耗时
2.rollout采样
3.使用过 verl 框架吗
4.verl 框架为什么需要重新 forward 计算 log probs
5.dapo 的几个创新
- clip-higher
- Dynamic Sampling
- token级别优势计算
6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的
- 推理主要分为两个阶段 prefill+decoder
- 量化:用低精度比如int8保存 参数 激活值 KVcache
- KVCache 量化(vllm也采取了pageAttention,将KV cache当成虚拟内存+页表 按照固定的page进行管理)
- GQA
- flash attention
反问
全部评论
verl 框架为什么需要重新 forward 计算 log probs咋回答的
相关推荐
等闲_:把mt的写上,还有我感觉也不咋用包装,把业务讲清楚就行,面试官也不是不清楚实习生会干啥 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
迷茫的大四🐶:搞不好进去还得抓你玩手机呢 点赞 评论 收藏
分享