百川M4医疗大模型登顶HealthBench：3.3%幻觉率创全球最低，AI医疗进入”会看病”时代

摘要： 2026年6月22日，百川智能联合清华大学发布新一代医疗增强大模型Baichuan-M4，以68.6分登顶OpenAI医疗评测HealthBench全球第一，事实性幻觉率降至3.3%创行业新低。该模型在问诊、记忆、循证、调度四大临床核心能力上全面超越GPT-5.5、Claude Opus 4.7等国际顶尖模型，标志着AI医疗从”会答题”迈向”会看病”的关键跨越。本文深度解析百川M4的技术突破与行业意义。

一、AI医疗的痛点：通用大模型”看似对、实际危险”

作为一名长期关注AI医疗赛道的科技博主，我注意到一个有趣的现象——越来越多人开始拿AI看病。有医生反映：”一上午30个门诊，25个带着AI来看病。”牛津大学的研究显示，把整理好的完整病例交给顶尖通用大模型，诊断准确率高达94.9%。

但现实远比实验室残酷。同一项研究中，当普通人拿着自己的病情去和AI对话时，准确率暴跌至34.5%。问题根源在于：通用大模型最不擅长主动追问。患者说不清症状、不知道该讲什么，而AI默认你能完整描述病情，最终给出的专业回答往往建立在残缺信息之上。

百川M4医疗大模型登顶HealthBench：3.3%幻觉率创全球最低，AI医疗进入"会看病"时代

百川智能创始人王小川在AI医疗新范式学术论坛上一针见血地指出：”通用模型的回答听起来流利、看起来专业，实际上经常’看似对、实际危险’。幻觉被包装成了确定性，患者带着AI给的’诊断’走进诊室质疑医生，医患矛盾反而加剧。”

二、百川M4横空出世：三项世界第一刷新AI医疗天花板

2026年6月22日，百川智能与清华大学研究团队联合发布新一代医疗增强大模型Baichuan-M4，直接刷屏科技圈。这款模型在HealthBench及其Hard、Professional三个榜单上同时位列世界第一，全面超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro。

具体成绩单相当亮眼：

HealthBench综合得分68.6分，领先第二名GPT-5.5超过10分
Hard子集领先15.9分，在最考验复杂临床决策的评测中断层领先
事实性幻觉率3.3%，全行业最低——同口径下GPT-5.5为3.8%、Claude Opus 4.7为6.9%、DeepSeek-V4-Pro高达9.8%

这些分数指向的不是考试能力，而是四项贴着临床走的核心能力：问诊、记忆、循证、调度。

三、深度问诊：AI终于学会像真人医生一样主动追问

问诊是看病的第一步，也是好医生功力的体现。通用模型多依靠”你是一位经验丰富的医生”这类提示激活角色扮演，问上几句就急于给出结论。而真实诊疗中，病人一句”胸口闷、偶尔心慌”背后，可能是焦虑，也可能是心梗前兆，全靠一层层追问才能分辨。

百川M4会主动追问症状的性质与诱因，优先识别和排查危急重症。一个典型案例：一位用户深夜脚痛，M4通过十轮问询——哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高——逐步缩小范围，怀疑为急性痛风，建议前往风湿免疫科就诊并生成问诊卡，到医院后经检查确诊。

为评测这一能力，百川借鉴医学教育中的OSCE（客观结构化临床考试）方法，联合150多位一线医生构建了动态问诊评测体系SCAN-bench。在这套以真实临床经验为评分标准的评测中，M4初诊79.0、复诊74.7，均明显领先GPT-5.5、DeepSeek-V4-Pro和Claude Opus 4.7。

四、全病程记忆：从单轮对话到跨越数年的健康档案

真实诊疗很少在一次问诊里结束。通用大模型虽然也讲”记忆”，但记住的多是最近几轮对话上下文，一旦跨越较长时间，早期检查结果、用药记录往往被遗忘。

M4推出的「全病程记忆」打通了历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者是谁、既往疾病、各项指标变化。在长上下文临床记忆评测中，M4取得86.9分，为同类最高，较上一代M3提升21.1分。

一个温馨的案例：一位用户与父母分居两地，老人随口提到”最近走一圈就喘”。M4结合老人长期健康记录与既往病史，判断可能存在早期心功能不全风险，建议及时就医，后续医院检查证实了这一判断。

五、证据锚定：每句结论都精确对应原始论文段落

在循证医学体系里，医生信任一条结论靠的是证据是否权威、准确、可追溯。如今大多医疗模型会在结论后附上文献来源，但医生常发现两类问题：引用编号在、文献却对不上；或文献没错，但被引用段落跟结论根本不是一回事。

百川首创的”证据锚定”要求模型生成的每一句医学结论，都精确对应到原始论文或指南中的具体段落。依托六源循证范式，模型只在权威医学来源中检索，不从开放网络抓取资料。M4把权威指南、专家共识与真实诊疗流程拆解为标准化临床路径单元，目前已超过1000个、覆盖200余种疾病，每一条都由资深临床专家定义和校验。

在百川构建的循证医学评测Baichuan-EBM上，M4循证引用精度达到90.0%，而GPT-5.5仅为54.7%、OpenEvidence为55.9%。

六、Agent架构：从医疗大脑进化为医疗智能体

问诊、记忆、循证彼此割裂，单项再强也拼不成能用的医疗系统。承担这层编排的是百川面向医疗场景构建的Baichuan-Harness——如果说M系列模型是医疗Agent的大脑，它就是调度大脑的中枢神经。

何时追问、何时检索证据、何时调出既往病史，均由模型自主决定，无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务，它会拆分成子任务并行处理；每一步动作都在实时安全约束下完成，违规的工具调用、越权的数据访问、不合临床规范的操作都会被当场拦下。

更重要的是，这套系统在真实诊疗中持续迭代：线上疑难案例、用户追问、医生纠偏，经脱敏与归因后回流，成为模型改进依据。王小川表示：”M4是大脑，百小医是身体。”百川还展示了面向用户的AI家庭医生百小医，将M4的能力触达普通家庭。

七、行业观察：AI医疗深水区的中国答卷

从OpenAI的ChatGPT Health到Anthropic的Claude for Healthcare，全球顶尖大模型公司都已把目光投向医疗。在这场竞速进入深水区的当下，百川用M4给出了目前最好的中国答卷。

值得注意的是，AI医疗赛道竞争激烈。除了百川，云知声也在2025年12月发布山海·知医大模型5.0，在MedBench 4.0评测中斩获医疗智能体、医疗大语言模型、医疗多模态大模型三项第一。这表明中国AI医疗企业正在多条技术路线上并跑乃至领跑。

王小川将医疗对大模型的刚性要求总结为三点：低幻觉、强循证、会提问——”三条刚需，通用模型一条都不达标。”而百川M4的出现，恰恰补齐了这三块短板。

从M1到M4，百川始终只做一件事：让AI真正能看病。这件事最难，但也最值得——它正在把原本只能满足少数人的优质诊疗资源，带到每一个普通人身边。

文章来源： 本文综合自百川智能官方发布、新浪科技、IT之家、时代财经、同花顺、TechWeb、雪球、凤凰网等媒体报道，以及百川智能与清华大学联合技术报告。

文章版权归作者所有，未经允许请勿转载。

Google I/O 2026 深度复盘：Agent时代全面降临，Gemini 3.5、XR眼镜与Aluminum OS重拳出击

百川M4医疗大模型登顶HealthBench：3.3%幻觉率创全球最低，AI医疗进入”会看病”时代

一、AI医疗的痛点：通用大模型”看似对、实际危险”

二、百川M4横空出世：三项世界第一刷新AI医疗天花板

三、深度问诊：AI终于学会像真人医生一样主动追问

四、全病程记忆：从单轮对话到跨越数年的健康档案

五、证据锚定：每句结论都精确对应原始论文段落

六、Agent架构：从医疗大脑进化为医疗智能体

七、行业观察：AI医疗深水区的中国答卷

GPT-5.6 Pro泄露：一句话48分钟生成完整《模拟人生》，3D能力碾压Fable 5，6月25日或正式发布

实测小云雀短剧Agent 2.0：字节AI短剧工作流全流程解析，Seedance 2.0加持下720°全景+3D导演台让创作丝滑如德芙

相关文章

Google I/O 2026 深度复盘：Agent时代全面降临，Gemini 3.5、XR眼镜与Aluminum OS重拳出击

月之暗面Kimi K2.6重磅发布！2026年大模型之战，国产巨头性能超越GPT-5.4？

Claude Code上新Agent View：告别终端多开，一屏调度多AI Agent并行编程

乐鑫发布智能旋转底座EchoEar-Base，声源识别技术重塑喵伴人机交互体验

暂无评论

最新文章

百川M4医疗大模型登顶HealthBench：3.3%幻觉率创全球最低，AI医疗进入”会看病”时代

一、AI医疗的痛点：通用大模型”看似对、实际危险”

二、百川M4横空出世：三项世界第一刷新AI医疗天花板

三、深度问诊：AI终于学会像真人医生一样主动追问

四、全病程记忆：从单轮对话到跨越数年的健康档案

五、证据锚定：每句结论都精确对应原始论文段落

六、Agent架构：从医疗大脑进化为医疗智能体

七、行业观察：AI医疗深水区的中国答卷

GPT-5.6 Pro泄露：一句话48分钟生成完整《模拟人生》，3D能力碾压Fable 5，6月25日或正式发布

实测小云雀短剧Agent 2.0：字节AI短剧工作流全流程解析，Seedance 2.0加持下720°全景+3D导演台让创作丝滑如德芙

相关文章

Google I/O 2026 深度复盘：Agent时代全面降临，Gemini 3.5、XR眼镜与Aluminum OS重拳出击

月之暗面Kimi K2.6重磅发布！2026年大模型之战，国产巨头性能超越GPT-5.4？

Claude Code上新Agent View：告别终端多开，一屏调度多AI Agent并行编程

乐鑫发布智能旋转底座EchoEar-Base，声源识别技术重塑喵伴人机交互体验

暂无评论

最新文章

标签云