核心介绍: 2026年4月,热门本地大模型运行工具Ollama发布了里程碑式的0.19预览版。此次更新专为Apple Silicon Mac设计,核心是用苹果自研的MLX框架重写了推理引擎,并引入了英伟达的NVFP4先进量化格式。实测显示,其文本生成速度提升最高达93%,同时在极低的4位精度下保持了惊人的模型准确性,大幅缩小了本地推理与云端服务的质量差距。对于拥有M4/M5芯片且内存大于32GB的Mac用户,尤其是AI编程助手(Agent)的重度使用者,此次更新意味着本地AI体验的质的飞跃。
Ollama一直是Mac用户运行本地大模型的首选,但过去的性能仅处于“能用”水平。0.19版本做出了根本性改变:将底层推理引擎从llama.cpp替换为苹果专为自家芯片打造的MLX框架。
除了速度,本次更新的另一大亮点是引入了英伟达的NVFP4(4位浮点)量化格式。这解决了本地模型长期存在的“精度损失”痛点。
0.19版对缓存机制进行了三项重要升级,特别优化了像Claude Code这类需要频繁、多轮交互的AI编程助手(Agent)场景。
这些改进使得AI助手在连续工作时,响应速度更快,体验更加“丝滑”。
如果你拥有一台配备Apple Silicon(M系列芯片)且统一内存不小于32GB的Mac,可以立即尝试这一强大更新。
qwen3.5:35b-a3b-coding-nvfp4
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4
小结:Ollama 0.19 并非一次普通的版本迭代,而是通过 MLX(速度飞跃)、NVFP4(精度保障)和智能缓存(体验优化) 这三板斧,重新定义了Apple Silicon Mac本地AI推理的体验上限。它让高性能、高精度的个人专属大模型助手,真正变得触手可及。
文章来源:本文基于用户提供的技术文档《Ollama 0.19 来了》及网络公开技术资料进行科普化改写,旨在解读核心更新。更多技术细节可参考: