lmdeploy v0.12.2 发布！全面支持 GLM5、Qwen3.5，性能与兼容性双升级，大模

lmdeploy v0.12.2 发布！全面支持 GLM5、Qwen3.5，性能与兼容性双升级，大模型部署再提速

（一）主流大模型全面适配，覆盖国产与开源生态
1. 支持GLM5模型
作为本次版本的核心亮点之一，lmdeploy v0.12.2正式新增对GLM5模型的支持，补齐了对智谱AI主流大模型的部署能力。GLM5作为智谱AI推出的新一代大模型，在通用理解、逻辑推理、多轮对话等方面具备显著优势，此次适配让开发者可通过lmdeploy快速实现GLM5模型的本地推理与服务化部署，无需复杂的二次开发，即可将GLM5的能力集成到各类应用中。
2. 新增Qwen3.5模型支持
紧跟通义千问模型迭代节奏，v0.12.2版本全面支持Qwen3.5系列模型，包括密集型（Dense）与混合专家型（MoE）架构。Qwen3.5作为阿里云推出的高性能大模型，在长文本处理、多模态交互、实时推理等场景表现突出，此次适配不仅实现基础推理支持，更通过TurboMind引擎深度优化，保障Qwen3.5模型在部署后的推理效率与稳定性。
3. GLM-4.7-Flash Turbomind专项支持
针对GLM-4.7-Flash模型，版本新增专属的TurboMind支持能力。GLM-4.7-Flash主打低延迟、高吞吐推理，适配实时对话、智能客服等对响应速度要求严苛的场景，lmdeploy通过定制化的TurboMind引擎适配，充分释放该模型的性能潜力，实现推理延迟与吞吐量的双重优化。
4. Qwen/Internlm/Llama系列模型FP8量化在线支持
为解决大模型部署中的显存占用与推理速度矛盾，v0.12.2版本实现对Qwen、Internlm、Llama三大主流模型系列（含Dense与MoE架构）的FP8量化在线支持。FP8量化作为兼顾精度与效率的量化方案，可在几乎不损失模型推理精度的前提下，将显存占用降低约50%，同时提升推理速度，大幅降低大模型部署的硬件门槛，让中低端GPU也能流畅运行百亿参数级大模型。
（二）推理与生成能力升级，提升生成质量与灵活性
1. 新增TurboMind对Qwen3.5全架构支持
除基础适配外，版本通过专项开发，实现TurboMind引擎对Qwen3.5 Dense与MoE架构的完整支持。TurboMind作为lmdeploy的核心推理引擎，基于C++/CUDA实现，具备连续批处理、分块KV缓存、高性能算子等优势，此次针对Qwen3.5的深度优化，可让该模型在lmdeploy部署后，吞吐量较原生推理提升数倍，同时降低推理延迟。
2. 支持Router Replay与量化层忽略（Qwen3.5专属）
针对Qwen3.5模型的MoE架构特性，版本新增Router Replay（路由重放）与忽略量化层功能。Router Replay可优化MoE模型中专家路由的推理效率，减少重复计算；忽略量化层则允许开发者针对模型特定层跳过量化，平衡推理精度与速度，满足不同场景的部署需求，进一步提升Qwen3.5模型部署的灵活性。
3. 新增Repetition Ngram Logits Processor
为解决大模型生成过程中的重复文本问题，v0.12.2版本新增Repetition Ngram Logits Processor（重复N元语法逻辑处理器）。该功能通过对生成文本的N元语法进行检测与惩罚，有效抑制重复片段的生成，提升生成文本的连贯性、多样性与质量，尤其适用于长文本生成、内容创作、对话交互等场景。
#福大大架构师每日一题# #大模型#