摘要:2026年4月,阿里通义千问团队开源了一款名为Qwen3.6-35B-A3B的AI大模型,在技术社区引起了广泛关注。它最引人注目的特点是拥有“小身材大能量”:总参数量高达350亿,但在实际推理时,每次仅激活30亿参数。这意味着它的运行消耗接近一个小模型,性能却足以媲美甚至超越许多参数量大得多的竞争对手,尤其在智能体编程和多模态理解方面表现卓越。本文将带你了解这款模型的核心特性、强大能力以及多种体验方式。
你可能听说过AI模型参数动辄千亿,对算力要求极高。但Qwen3.6-35B-A3B走了一条不同的“高效”路线。它是一种采用混合专家(MoE)架构的模型。你可以把它想象成一个拥有256位各领域专家的超级智库,但每次处理你的问题时,系统只会根据问题类型,智能地唤醒其中最相关的8位专家和1位全能专家来工作。其他专家则处于“休眠”状态。这样一来,模型在“学习”阶段吸收了海量知识(350亿参数),但在“应用”阶段非常节俭(仅激活30亿参数),实现了出色的能效比。
它的技术底子也很特别,并非传统的单一架构,而是创新性地将**Gated DeltaNet(线性注意力)和Gated Attention(标准注意力)**两种技术交替堆叠融合在一起,再结合上述的MoE层,共同构成了其高效推理的基础。
这款模型主打两大核心能力,而且表现都超出了人们对这个“体型”模型的预期。
此外,模型新增了一个对智能体任务极其友好的功能——“思维保留”(preserve_thinking)。开启后,AI在多轮对话中会保留并复用之前的思考链条,避免了重复推理,让处理复杂多步任务时更高效、更连贯。
无论你是想快速尝鲜,还是希望部署到自己的服务器或电脑上,都有对应的路径。
qwen3.6-flash
llama.cpp
总结来说,Qwen3.6-35B-A3B以其独特的稀疏高效架构,在智能体编程和多模态理解两大关键领域树立了新的标杆。它证明了优秀的模型不一定需要巨量的实时计算消耗,通过精巧的设计,同样能在保持低成本、高效率的同时,提供顶尖的实用性能。对于开发者、研究者和技术爱好者而言,这无疑是一个值得关注和尝试的强大开源工具。
文章来源:本文信息综合自阿里通义千问官方发布、IT之家、网易订阅等科技媒体报道,以及daguoai.com的读者投稿。