Ollama 0.19重磅更新:MLX引擎+NVFP4量化,Mac本地AI推理迎来速度与精度革命

Ai资讯2小时前发布 大国Ai
26 0 0

核心介绍: 2026年4月,热门本地大模型运行工具Ollama发布了里程碑式的0.19预览版。此次更新专为Apple Silicon Mac设计,核心是用苹果自研的MLX框架重写了推理引擎,并引入了英伟达的NVFP4先进量化格式。实测显示,其文本生成速度提升最高达93%,同时在极低的4位精度下保持了惊人的模型准确性,大幅缩小了本地推理与云端服务的质量差距。对于拥有M4/M5芯片且内存大于32GB的Mac用户,尤其是AI编程助手(Agent)的重度使用者,此次更新意味着本地AI体验的质的飞跃。

一、 速度革命:MLX引擎让Mac推理飞起

Ollama一直是Mac用户运行本地大模型的首选,但过去的性能仅处于“能用”水平。0.19版本做出了根本性改变:将底层推理引擎从llama.cpp替换为苹果专为自家芯片打造的MLX框架。

  • MLX的优势:MLX针对Apple Silicon的统一内存架构(UMA)优化。CPU和GPU共享内存,数据无需来回拷贝,从硬件层面提升了效率。这好比给汽车换上了更高效的涡轮增压发动机。
  • 性能提升数据:根据官方测试(基于M5芯片运行特定模型):
    • 预填充速度:从1154 tokens/s提升至1810 tokens/s,提升57%
    • 文本生成速度:从58 tokens/s提升至112 tokens/s,提升93%,几乎翻倍。
  • 实际体验:用户运行AI编程助手时,能感受到代码“嗖嗖嗖”快速生成的畅快感。对于长上下文任务(如处理数万token的文档),新的GPU神经加速器能使响应首字时间(TTFT)大幅缩短,交互体验更加流畅。
Ollama 0.19重磅更新:MLX引擎+NVFP4量化,Mac本地AI推理迎来速度与精度革命

二、 精度守护:NVFP4量化填平本地与云端的鸿沟

除了速度,本次更新的另一大亮点是引入了英伟达的NVFP4(4位浮点)量化格式。这解决了本地模型长期存在的“精度损失”痛点。

  • 什么是NVFP4:它是一种先进的4位浮点数存储格式。传统4位量化会明显降低模型能力,而NVFP4通过“微块精细缩放”和“双层缩放策略”两项核心技术,在极致压缩的同时最大限度地保留了精度。
  • 精度对比结果:在部分专业测试(如AIME 2024)中,采用NVFP4量化的模型表现甚至超过了8位精度(FP8)的模型。在大多数测试中,其精度损失仅为1%左右,远优于传统量化方法。
  • 对用户的意义:这意味着你在自己Mac上运行的低精度量化模型,其回答质量、推理能力与云端高性能GPU服务器上运行的全精度模型几乎别无二致。本地与云端之间的“质量鸿沟”被显著填平。

三、 智能缓存:让AI编程助手更“懂你”

0.19版对缓存机制进行了三项重要升级,特别优化了像Claude Code这类需要频繁、多轮交互的AI编程助手(Agent)场景。

  1. 内存复用更高效:多个对话会话可以共享系统指令的缓存,降低了总体内存占用。
  2. 缓存命中更智能:系统会在提示词的关键位置自动保存检查点,后续相似请求能更快命中缓存,减少重复计算。
  3. 缓存留存更持久:有用的缓存片段不会被轻易清理,使得多轮对话的上下文处理更加连贯、迅速。

这些改进使得AI助手在连续工作时,响应速度更快,体验更加“丝滑”。

四、 如何体验:快速上手指南

如果你拥有一台配备Apple Silicon(M系列芯片)且统一内存不小于32GB的Mac,可以立即尝试这一强大更新。

  • 下载地址:前往 Ollama 官网下载 0.19 预览版。
  • 推荐模型:目前优先优化支持的是 qwen3.5:35b-a3b-coding-nvfp4 模型。这是一个由阿里巴巴推出的混合专家模型,参数虽大但每次仅激活少量参数,在编程任务上表现优异且已针对NVFP4优化。
  • 启动命令
    • 用于AI编程:ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
    • 直接对话运行:ollama run qwen3.5:35b-a3b-coding-nvfp4

小结Ollama 0.19 并非一次普通的版本迭代,而是通过 MLX(速度飞跃)、NVFP4(精度保障)和智能缓存(体验优化) 这三板斧,重新定义了Apple Silicon Mac本地AI推理的体验上限。它让高性能、高精度的个人专属大模型助手,真正变得触手可及。


文章来源:本文基于用户提供的技术文档《Ollama 0.19 来了》及网络公开技术资料进行科普化改写,旨在解读核心更新。更多技术细节可参考:

© 版权声明

相关文章

暂无评论

none
暂无评论...