百川M4医疗大模型登顶HealthBench:3.3%幻觉率创全球最低,AI医疗进入”会看病”时代

Ai资讯2小时前更新 大国Ai
14 0 0

摘要: 2026年6月22日,百川智能联合清华大学发布新一代医疗增强大模型Baichuan-M4,以68.6分登顶OpenAI医疗评测HealthBench全球第一,事实性幻觉率降至3.3%创行业新低。该模型在问诊、记忆、循证、调度四大临床核心能力上全面超越GPT-5.5、Claude Opus 4.7等国际顶尖模型,标志着AI医疗从”会答题”迈向”会看病”的关键跨越。本文深度解析百川M4的技术突破与行业意义。


一、AI医疗的痛点:通用大模型”看似对、实际危险”

作为一名长期关注AI医疗赛道的科技博主,我注意到一个有趣的现象——越来越多人开始拿AI看病。有医生反映:”一上午30个门诊,25个带着AI来看病。”牛津大学的研究显示,把整理好的完整病例交给顶尖通用大模型,诊断准确率高达94.9%。

但现实远比实验室残酷。同一项研究中,当普通人拿着自己的病情去和AI对话时,准确率暴跌至34.5%。问题根源在于:通用大模型最不擅长主动追问。患者说不清症状、不知道该讲什么,而AI默认你能完整描述病情,最终给出的专业回答往往建立在残缺信息之上。

百川M4医疗大模型登顶HealthBench:3.3%幻觉率创全球最低,AI医疗进入"会看病"时代

百川智能创始人王小川在AI医疗新范式学术论坛上一针见血地指出:”通用模型的回答听起来流利、看起来专业,实际上经常’看似对、实际危险’。幻觉被包装成了确定性,患者带着AI给的’诊断’走进诊室质疑医生,医患矛盾反而加剧。”

二、百川M4横空出世:三项世界第一刷新AI医疗天花板

2026年6月22日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型Baichuan-M4,直接刷屏科技圈。这款模型在HealthBench及其Hard、Professional三个榜单上同时位列世界第一,全面超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro。

具体成绩单相当亮眼:

  • HealthBench综合得分68.6分,领先第二名GPT-5.5超过10分
  • Hard子集领先15.9分,在最考验复杂临床决策的评测中断层领先
  • 事实性幻觉率3.3%,全行业最低——同口径下GPT-5.5为3.8%、Claude Opus 4.7为6.9%、DeepSeek-V4-Pro高达9.8%

这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度

三、深度问诊:AI终于学会像真人医生一样主动追问

问诊是看病的第一步,也是好医生功力的体现。通用模型多依靠”你是一位经验丰富的医生”这类提示激活角色扮演,问上几句就急于给出结论。而真实诊疗中,病人一句”胸口闷、偶尔心慌”背后,可能是焦虑,也可能是心梗前兆,全靠一层层追问才能分辨。

百川M4会主动追问症状的性质与诱因,优先识别和排查危急重症。一个典型案例:一位用户深夜脚痛,M4通过十轮问询——哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高——逐步缩小范围,怀疑为急性痛风,建议前往风湿免疫科就诊并生成问诊卡,到医院后经检查确诊。

为评测这一能力,百川借鉴医学教育中的OSCE(客观结构化临床考试)方法,联合150多位一线医生构建了动态问诊评测体系SCAN-bench。在这套以真实临床经验为评分标准的评测中,M4初诊79.0、复诊74.7,均明显领先GPT-5.5、DeepSeek-V4-Pro和Claude Opus 4.7。

四、全病程记忆:从单轮对话到跨越数年的健康档案

真实诊疗很少在一次问诊里结束。通用大模型虽然也讲”记忆”,但记住的多是最近几轮对话上下文,一旦跨越较长时间,早期检查结果、用药记录往往被遗忘。

M4推出的「全病程记忆」打通了历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往疾病、各项指标变化。在长上下文临床记忆评测中,M4取得86.9分,为同类最高,较上一代M3提升21.1分。

一个温馨的案例:一位用户与父母分居两地,老人随口提到”最近走一圈就喘”。M4结合老人长期健康记录与既往病史,判断可能存在早期心功能不全风险,建议及时就医,后续医院检查证实了这一判断。

五、证据锚定:每句结论都精确对应原始论文段落

在循证医学体系里,医生信任一条结论靠的是证据是否权威、准确、可追溯。如今大多医疗模型会在结论后附上文献来源,但医生常发现两类问题:引用编号在、文献却对不上;或文献没错,但被引用段落跟结论根本不是一回事。

百川首创的”证据锚定”要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。M4把权威指南、专家共识与真实诊疗流程拆解为标准化临床路径单元,目前已超过1000个、覆盖200余种疾病,每一条都由资深临床专家定义和校验。

在百川构建的循证医学评测Baichuan-EBM上,M4循证引用精度达到90.0%,而GPT-5.5仅为54.7%、OpenEvidence为55.9%。

六、Agent架构:从医疗大脑进化为医疗智能体

问诊、记忆、循证彼此割裂,单项再强也拼不成能用的医疗系统。承担这层编排的是百川面向医疗场景构建的Baichuan-Harness——如果说M系列模型是医疗Agent的大脑,它就是调度大脑的中枢神经。

何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理;每一步动作都在实时安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作都会被当场拦下。

更重要的是,这套系统在真实诊疗中持续迭代:线上疑难案例、用户追问、医生纠偏,经脱敏与归因后回流,成为模型改进依据。王小川表示:”M4是大脑,百小医是身体。”百川还展示了面向用户的AI家庭医生百小医,将M4的能力触达普通家庭。

七、行业观察:AI医疗深水区的中国答卷

从OpenAI的ChatGPT Health到Anthropic的Claude for Healthcare,全球顶尖大模型公司都已把目光投向医疗。在这场竞速进入深水区的当下,百川用M4给出了目前最好的中国答卷。

值得注意的是,AI医疗赛道竞争激烈。除了百川,云知声也在2025年12月发布山海·知医大模型5.0,在MedBench 4.0评测中斩获医疗智能体、医疗大语言模型、医疗多模态大模型三项第一。这表明中国AI医疗企业正在多条技术路线上并跑乃至领跑。

王小川将医疗对大模型的刚性要求总结为三点:低幻觉、强循证、会提问——”三条刚需,通用模型一条都不达标。”而百川M4的出现,恰恰补齐了这三块短板。

从M1到M4,百川始终只做一件事:让AI真正能看病。这件事最难,但也最值得——它正在把原本只能满足少数人的优质诊疗资源,带到每一个普通人身边。


文章来源: 本文综合自百川智能官方发布、新浪科技、IT之家、时代财经、同花顺、TechWeb、雪球、凤凰网等媒体报道,以及百川智能与清华大学联合技术报告。

© 版权声明

相关文章

暂无评论

none
暂无评论...