lmdeploy v0.12.2 发布!全面支持 GLM5、Qwen3.5,性能与兼容性双升级,大模

lmdeploy v0.12.2 发布!全面支持 GLM5、Qwen3.5,性能与兼容性双升级,大模型部署再提速

(一)主流大模型全面适配,覆盖国产与开源生态
1. 支持GLM5模型
作为本次版本的核心亮点之一,lmdeploy v0.12.2正式新增对GLM5模型的支持,补齐了对智谱AI主流大模型的部署能力。GLM5作为智谱AI推出的新一代大模型,在通用理解、逻辑推理、多轮对话等方面具备显著优势,此次适配让开发者可通过lmdeploy快速实现GLM5模型的本地推理与服务化部署,无需复杂的二次开发,即可将GLM5的能力集成到各类应用中。
2. 新增Qwen3.5模型支持
紧跟通义千问模型迭代节奏,v0.12.2版本全面支持Qwen3.5系列模型,包括密集型(Dense)与混合专家型(MoE)架构。Qwen3.5作为阿里云推出的高性能大模型,在长文本处理、多模态交互、实时推理等场景表现突出,此次适配不仅实现基础推理支持,更通过TurboMind引擎深度优化,保障Qwen3.5模型在部署后的推理效率与稳定性。
3. GLM-4.7-Flash Turbomind专项支持
针对GLM-4.7-Flash模型,版本新增专属的TurboMind支持能力。GLM-4.7-Flash主打低延迟、高吞吐推理,适配实时对话、智能客服等对响应速度要求严苛的场景,lmdeploy通过定制化的TurboMind引擎适配,充分释放该模型的性能潜力,实现推理延迟与吞吐量的双重优化。
4. Qwen/Internlm/Llama系列模型FP8量化在线支持
为解决大模型部署中的显存占用与推理速度矛盾,v0.12.2版本实现对Qwen、Internlm、Llama三大主流模型系列(含Dense与MoE架构)的FP8量化在线支持。FP8量化作为兼顾精度与效率的量化方案,可在几乎不损失模型推理精度的前提下,将显存占用降低约50%,同时提升推理速度,大幅降低大模型部署的硬件门槛,让中低端GPU也能流畅运行百亿参数级大模型。
(二)推理与生成能力升级,提升生成质量与灵活性
1. 新增TurboMind对Qwen3.5全架构支持
除基础适配外,版本通过专项开发,实现TurboMind引擎对Qwen3.5 Dense与MoE架构的完整支持。TurboMind作为lmdeploy的核心推理引擎,基于C++/CUDA实现,具备连续批处理、分块KV缓存、高性能算子等优势,此次针对Qwen3.5的深度优化,可让该模型在lmdeploy部署后,吞吐量较原生推理提升数倍,同时降低推理延迟。
2. 支持Router Replay与量化层忽略(Qwen3.5专属)
针对Qwen3.5模型的MoE架构特性,版本新增Router Replay(路由重放)与忽略量化层功能。Router Replay可优化MoE模型中专家路由的推理效率,减少重复计算;忽略量化层则允许开发者针对模型特定层跳过量化,平衡推理精度与速度,满足不同场景的部署需求,进一步提升Qwen3.5模型部署的灵活性。
3. 新增Repetition Ngram Logits Processor
为解决大模型生成过程中的重复文本问题,v0.12.2版本新增Repetition Ngram Logits Processor(重复N元语法逻辑处理器)。该功能通过对生成文本的N元语法进行检测与惩罚,有效抑制重复片段的生成,提升生成文本的连贯性、多样性与质量,尤其适用于长文本生成、内容创作、对话交互等场景。
#福大大架构师每日一题# #大模型#
全部评论

相关推荐

卡卡罗特ovo:说起云智我就来气,约好了一面,结果面试官没来,ssob上问hr也未读,我还是专门请了半天假在家面试,恶心死了
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务