Ollama 0.19重磅更新：MLX引擎+NVFP4量化，Mac本地AI推理迎来速度与精度革命

核心介绍： 2026年4月，热门本地大模型运行工具Ollama发布了里程碑式的0.19预览版。此次更新专为Apple Silicon Mac设计，核心是用苹果自研的MLX框架重写了推理引擎，并引入了英伟达的NVFP4先进量化格式。实测显示，其文本生成速度提升最高达93%，同时在极低的4位精度下保持了惊人的模型准确性，大幅缩小了本地推理与云端服务的质量差距。对于拥有M4/M5芯片且内存大于32GB的Mac用户，尤其是AI编程助手（Agent）的重度使用者，此次更新意味着本地AI体验的质的飞跃。

一、速度革命：MLX引擎让Mac推理飞起

Ollama一直是Mac用户运行本地大模型的首选，但过去的性能仅处于“能用”水平。0.19版本做出了根本性改变：将底层推理引擎从llama.cpp替换为苹果专为自家芯片打造的MLX框架。

MLX的优势：MLX针对Apple Silicon的统一内存架构（UMA）优化。CPU和GPU共享内存，数据无需来回拷贝，从硬件层面提升了效率。这好比给汽车换上了更高效的涡轮增压发动机。
性能提升数据：根据官方测试（基于M5芯片运行特定模型）：
- 预填充速度：从1154 tokens/s提升至1810 tokens/s，提升57%。
- 文本生成速度：从58 tokens/s提升至112 tokens/s，提升93%，几乎翻倍。
实际体验：用户运行AI编程助手时，能感受到代码“嗖嗖嗖”快速生成的畅快感。对于长上下文任务（如处理数万token的文档），新的GPU神经加速器能使响应首字时间（TTFT）大幅缩短，交互体验更加流畅。

Ollama 0.19重磅更新：MLX引擎+NVFP4量化，Mac本地AI推理迎来速度与精度革命

二、精度守护：NVFP4量化填平本地与云端的鸿沟

除了速度，本次更新的另一大亮点是引入了英伟达的NVFP4（4位浮点）量化格式。这解决了本地模型长期存在的“精度损失”痛点。

什么是NVFP4：它是一种先进的4位浮点数存储格式。传统4位量化会明显降低模型能力，而NVFP4通过“微块精细缩放”和“双层缩放策略”两项核心技术，在极致压缩的同时最大限度地保留了精度。
精度对比结果：在部分专业测试（如AIME 2024）中，采用NVFP4量化的模型表现甚至超过了8位精度（FP8）的模型。在大多数测试中，其精度损失仅为1%左右，远优于传统量化方法。
对用户的意义：这意味着你在自己Mac上运行的低精度量化模型，其回答质量、推理能力与云端高性能GPU服务器上运行的全精度模型几乎别无二致。本地与云端之间的“质量鸿沟”被显著填平。

三、智能缓存：让AI编程助手更“懂你”

0.19版对缓存机制进行了三项重要升级，特别优化了像Claude Code这类需要频繁、多轮交互的AI编程助手（Agent）场景。

内存复用更高效：多个对话会话可以共享系统指令的缓存，降低了总体内存占用。
缓存命中更智能：系统会在提示词的关键位置自动保存检查点，后续相似请求能更快命中缓存，减少重复计算。
缓存留存更持久：有用的缓存片段不会被轻易清理，使得多轮对话的上下文处理更加连贯、迅速。

这些改进使得AI助手在连续工作时，响应速度更快，体验更加“丝滑”。

四、如何体验：快速上手指南

如果你拥有一台配备Apple Silicon（M系列芯片）且统一内存不小于32GB的Mac，可以立即尝试这一强大更新。

下载地址：前往 Ollama 官网下载 0.19 预览版。
推荐模型：目前优先优化支持的是 qwen3.5:35b-a3b-coding-nvfp4 模型。这是一个由阿里巴巴推出的混合专家模型，参数虽大但每次仅激活少量参数，在编程任务上表现优异且已针对NVFP4优化。
启动命令：
- 用于AI编程：ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- 直接对话运行：ollama run qwen3.5:35b-a3b-coding-nvfp4

小结：Ollama 0.19 并非一次普通的版本迭代，而是通过 MLX（速度飞跃）、NVFP4（精度保障）和智能缓存（体验优化） 这三板斧，重新定义了Apple Silicon Mac本地AI推理的体验上限。它让高性能、高精度的个人专属大模型助手，真正变得触手可及。

文章来源：本文基于用户提供的技术文档《Ollama 0.19 来了》及网络公开技术资料进行科普化改写，旨在解读核心更新。更多技术细节可参考：

Ollama 官方博客： https://ollama.com/blog/mlx
英伟达 NVFP4 技术博客： https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

文章版权归作者所有，未经允许请勿转载。

OpenAI绝地反击！Codex大脑架构首度揭秘，单PostgreSQL主库硬扛8亿用户挑战Claude Code

Ollama 0.19重磅更新：MLX引擎+NVFP4量化，Mac本地AI推理迎来速度与精度革命

一、速度革命：MLX引擎让Mac推理飞起

二、精度守护：NVFP4量化填平本地与云端的鸿沟

三、智能缓存：让AI编程助手更“懂你”

四、如何体验：快速上手指南

百度造出中国首个医生版龙虾“有医助理”：一个能“干活”的AI数字同事

当AI有了实体：会跳舞的Claude Code桌面摆件来了

相关文章

OpenAI绝地反击！Codex大脑架构首度揭秘，单PostgreSQL主库硬扛8亿用户挑战Claude Code

Claude Code 2.1 重磅发布：百项更新重塑AI编程体验，技能热重载与Vim增强成最大亮点

实时交互式AI视频技术取得突破：Lemon Slice Agents发布Slice-2，照片可“开口说话”

FLUX.2开源挑战谷歌Nano Banana，AI图像生成迎来工业级对决

暂无评论

Ollama 0.19重磅更新：MLX引擎+NVFP4量化，Mac本地AI推理迎来速度与精度革命

一、 速度革命：MLX引擎让Mac推理飞起

二、 精度守护：NVFP4量化填平本地与云端的鸿沟

三、 智能缓存：让AI编程助手更“懂你”

四、 如何体验：快速上手指南

百度造出中国首个医生版龙虾“有医助理”：一个能“干活”的AI数字同事

当AI有了实体：会跳舞的Claude Code桌面摆件来了

相关文章

OpenAI绝地反击！Codex大脑架构首度揭秘，单PostgreSQL主库硬扛8亿用户挑战Claude Code

Claude Code 2.1 重磅发布：百项更新重塑AI编程体验，技能热重载与Vim增强成最大亮点

实时交互式AI视频技术取得突破：Lemon Slice Agents发布Slice-2，照片可“开口说话”

FLUX.2开源挑战谷歌Nano Banana，AI图像生成迎来工业级对决

暂无评论

标签云

一、速度革命：MLX引擎让Mac推理飞起

二、精度守护：NVFP4量化填平本地与云端的鸿沟

三、智能缓存：让AI编程助手更“懂你”

四、如何体验：快速上手指南