美团大模型强化学习实习面经
1. RMSNorm与其他正则化区别:BN依赖批量(适配CNN),LN算均值方差(开销大);RMSNorm跳过均值,开销低、不依赖批量,适配大模型长序列,美团常用其替代LN。
2. FlashAttention:优化注意力计算瓶颈,分块计算+梯度重计算,降显存、提速度,保持精度不变,美团大模型长序列处理广泛应用。
3. Qwen3亮点:MoE架构优化、多模态升级,融合RMSNorm/FlashAttention,强化中文与本地生活适配,多尺度版本支持端云一体部署。
4. Mamba:基于SSM架构,线性复杂度,替代Transformer解决长序列低效问题,兼顾训练效率与推理速度,适配美团调度、长文本任务。
5. VERL框架:字节开源,适配大模型RL训练,解耦控制流与计算流,支持分布式训练,兼容多种内存优化方案,适配PPO/DPO算法与美团业务微调。
6. LlamaFactory框架:熟练使用,轻量高兼容,支持多类微调方式,内置数据集接口,可对接美团场景,支持分布式训练与量化部署。
7. 强化学习算法:PPO(RLHF核心,稳且高效)、DPO(免奖励模型,迭代快)、GRPO(省显存)、SAC(适配连续控制)、RLHF(提升生成质量)
2. FlashAttention:优化注意力计算瓶颈,分块计算+梯度重计算,降显存、提速度,保持精度不变,美团大模型长序列处理广泛应用。
3. Qwen3亮点:MoE架构优化、多模态升级,融合RMSNorm/FlashAttention,强化中文与本地生活适配,多尺度版本支持端云一体部署。
4. Mamba:基于SSM架构,线性复杂度,替代Transformer解决长序列低效问题,兼顾训练效率与推理速度,适配美团调度、长文本任务。
5. VERL框架:字节开源,适配大模型RL训练,解耦控制流与计算流,支持分布式训练,兼容多种内存优化方案,适配PPO/DPO算法与美团业务微调。
6. LlamaFactory框架:熟练使用,轻量高兼容,支持多类微调方式,内置数据集接口,可对接美团场景,支持分布式训练与量化部署。
7. 强化学习算法:PPO(RLHF核心,稳且高效)、DPO(免奖励模型,迭代快)、GRPO(省显存)、SAC(适配连续控制)、RLHF(提升生成质量)
全部评论
相关推荐
腾讯成长空间 6064人发布