ollama v0.17.5正式发布:新增Qwen3.5系列模型,全方位优化GPU/CPU分配、采样
ollama v0.17.5正式发布:新增Qwen3.5系列模型,全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解
一、版本核心更新概览
1. 新增模型系列:Qwen3.5
v0.17.5引入了全新的模型系列——Qwen3.5,包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。
值得注意的是,在此次版本中,Qwen3.5模型支持 GPU 与 CPU 混合加载模式,同时针对模型“自我重复”问题进行了深度修复。新模型可通过命令重新下载:
ollama pull qwen3.5:35b
2. GPU & CPU分配相关修复
新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。此前,当模型部分参数映射至CPU后,DeltaNet层或KV缓存命中时容易出现panic,如今通过对线性注意力张量缺失、conv1d权重校验、层级递归验证进行系统修复,显著提升了混合资源下的运行稳定性。
二、性能与内存系统全面升级
1. Verbose模式新增峰值内存统计
ollama run --verbose 现在会显示峰值内存使用情况。新增的参数结构 Metrics 中增加了:
• PeakMemory:以GiB或人类可读格式输出峰值内存;
• formatPeakMemory()函数:自动判断单位并格式化显示;
• Summary()方法中新增内存输出逻辑。
这可以帮助开发者在分析模型运行性能时,即时观察峰值占用,便于评估MLX引擎的内存优化效果。
2. MLX运行器内存修复与优化
MLX runner一系列补丁包括:
• 修复了在KV缓存命中时引发panic的问题;
• 报告真实内存使用,而非理论分配值;
• 增加错误传播机制,通过api.StatusError将pipeline异常上报到客户端;
• 严格限制模型上下文长度以防越界;
• 优化prompt评估计时逻辑,使计时与计数更精确;
• 引入内存峰值复位API mlx_reset_peak_memory()。
这一系列操作让MLX在处理大模型时更稳定,也为后续GPU监控功能奠定基础。
#大模型# #福大大架构师每日一题#
一、版本核心更新概览
1. 新增模型系列:Qwen3.5
v0.17.5引入了全新的模型系列——Qwen3.5,包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。
值得注意的是,在此次版本中,Qwen3.5模型支持 GPU 与 CPU 混合加载模式,同时针对模型“自我重复”问题进行了深度修复。新模型可通过命令重新下载:
ollama pull qwen3.5:35b
2. GPU & CPU分配相关修复
新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。此前,当模型部分参数映射至CPU后,DeltaNet层或KV缓存命中时容易出现panic,如今通过对线性注意力张量缺失、conv1d权重校验、层级递归验证进行系统修复,显著提升了混合资源下的运行稳定性。
二、性能与内存系统全面升级
1. Verbose模式新增峰值内存统计
ollama run --verbose 现在会显示峰值内存使用情况。新增的参数结构 Metrics 中增加了:
• PeakMemory:以GiB或人类可读格式输出峰值内存;
• formatPeakMemory()函数:自动判断单位并格式化显示;
• Summary()方法中新增内存输出逻辑。
这可以帮助开发者在分析模型运行性能时,即时观察峰值占用,便于评估MLX引擎的内存优化效果。
2. MLX运行器内存修复与优化
MLX runner一系列补丁包括:
• 修复了在KV缓存命中时引发panic的问题;
• 报告真实内存使用,而非理论分配值;
• 增加错误传播机制,通过api.StatusError将pipeline异常上报到客户端;
• 严格限制模型上下文长度以防越界;
• 优化prompt评估计时逻辑,使计时与计数更精确;
• 引入内存峰值复位API mlx_reset_peak_memory()。
这一系列操作让MLX在处理大模型时更稳定,也为后续GPU监控功能奠定基础。
#大模型# #福大大架构师每日一题#
全部评论
相关推荐