美团大模型研发二面-日常实习

项目和八股
1.grpo哪个阶段最耗时
2.rollout采样
3.使用过 verl 框架吗
4.verl 框架为什么需要重新 forward 计算 log probs
5.dapo 的几个创新
- clip-higher
- Dynamic Sampling
- token级别优势计算
6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的
- 推理主要分为两个阶段  prefill+decoder
- 量化:用低精度比如int8保存 参数 激活值  KVcache
- KVCache 量化(vllm也采取了pageAttention,将KV cache当成虚拟内存+页表 按照固定的page进行管理)
- GQA
- flash attention
 反问
全部评论
你这个问的真的很难啊
点赞 回复 分享
发布于 02-25 17:02 江西
verl 框架为什么需要重新 forward 计算 log probs咋回答的
点赞 回复 分享
发布于 02-04 22:02 湖南

相关推荐

05-04 17:20
武汉大学
已注销:技术栈删了,让ai把你的项目丰富化,干的活太少了,像是写了个demo,起码一个项目四点重要内容,内容用技术栈描述,取得了什么进展,简历大部分都留给项目,其他的压缩
如何写一份好简历
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务