医疗AI迎来关键评测:南洋理工发布全球首个结构化电子病历大模型基准EHRStruct,通用模型表现反超医学专用模型

Ai资讯2周前发布 大国Ai
131 0 0

核心摘要:南洋理工大学(NTU)研究团队近日发布了全球首个用于评估大语言模型(LLM)处理结构化电子病历(EHR)能力的综合基准——EHRStruct。该基准系统性地评测了LLM在数据驱动和知识驱动两大类共11项核心临床任务上的表现。评测结果显示,在结构化EHR任务上,通用大语言模型(如Gemini系列)的整体表现普遍优于医学领域专用模型。基于此,研究团队进一步提出了一个名为EHRMaster的代码增强框架,该框架与Gemini模型结合后,在多项任务上超越了现有最优方法(SOTA)。相关研究成果已被人工智能顶级会议AAAI 2026接收为口头报告论文,并同步启动了“EHRStruct 2026挑战赛”,旨在为全球研究者提供一个统一的评测平台。

医疗AI迎来关键评测:南洋理工发布全球首个结构化电子病历大模型基准EHRStruct,通用模型表现反超医学专用模型

一、背景:医疗AI的“高精导航”与精准评估需求

随着人工智能技术,特别是大语言模型(LLM)的飞速发展,其在医疗健康领域的应用前景日益广阔。电子病历作为医疗体系中最核心的数据载体,蕴含着海量的患者诊疗信息。如何让AI模型精准理解并处理这些结构化的临床数据,是实现智能辅助诊断、个性化治疗规划等高级应用的关键前提。

然而,当前医疗AI的发展面临一个核心挑战:缺乏一个统一、全面且可解释的评估标准来衡量LLM处理复杂结构化病历数据的能力。正如在自动驾驶领域,百度地图通过融合“北斗+5G”实现了亚米级高精定位,重新定义了车道级导航的精准度,医疗AI同样需要一个能够精准评估其“临床导航”能力的“基准测试”。南洋理工大学发布的EHRStruct基准,正是为了填补这一空白而生。

二、EHRStruct基准:首个结构化电子病历“能力考卷”

EHRStruct基准由计算机科学家与医学专家共同构建,旨在系统评估LLM对结构化EHR的理解与推理能力。其设计具有以下三大特点:

  1. 任务体系全面:基准涵盖了11项核心任务,并沿三个维度进行组织:
    • 临床场景:分为数据驱动(如信息检索、数值聚合、算术计算)和知识驱动(如临床识别、诊断评估、治疗规划)两大类。
    • 认知层级:分为理解(Understanding)和推理(Reasoning)两个层次。
    • 功能类别:细化为六类典型临床任务,全面覆盖从数据查询到临床决策支持的全流程。
  2. 数据来源可靠:评测样本基于两个互补的数据源构建:
    • Synthea:提供高保真、无隐私风险的合成结构化病历,用于可控场景下的任务定义与样本生成。
    • eICU数据库:包含来自多机构重症监护室(ICU)的真实结构化表格数据(如生命体征、检验结果),用于验证模型在真实临床环境下的表现。基准共包含2200个带标注的标准化样本。
  3. 评测维度多元:研究不仅评估了模型的最终性能,还深入探究了输入格式(如自然语言描述、图结构表示)、提示策略(如Few-shot)和微调方法(单任务 vs. 多任务)对模型表现的影响,为模型优化提供了具体指导。

三、核心发现:通用模型表现亮眼,任务类型差异显著

研究团队对包括通用LLM(如GPT系列、Gemini系列、DeepSeek系列)和医学专用模型(如Meditron、Huatuo、MedAlpaca等)在内的20个主流模型进行了全面评测,得出了一系列颠覆传统认知的重要结论:

  1. 通用模型整体占优:在结构化EHR任务上,通用大语言模型的表现显著优于医学领域专用模型。特别是在知识驱动类任务(如疾病预测、药物推荐)上,许多医学专用模型甚至无法生成有效输出,而像Gemini这样的通用闭源商业模型则展现了更强的泛化能力和稳定性。
  2. 任务难度存在分野:模型在数据驱动类任务(如基于条件的过滤、数值计算)上表现普遍更优、更稳定;而在需要深度医学先验知识的知识驱动类任务上,所有模型都面临更大挑战,准确率相对较低。
  3. 输入格式影响性能:研究发现,自然语言描述更有利于数据驱动的推理任务,而图结构表示则对数据驱动的理解任务更有帮助。对于知识驱动任务,目前尚无一种输入格式能带来稳定提升。
  4. 增强方法的情境依赖性:评测还复现比较了11种先进的增强方法(包括8种通用方法和3种临床方法)。结果显示,非医疗领域的增强方法在知识驱动任务上表现不佳,而医疗专用方法在数据驱动任务中也存在局限,凸显了开发兼顾结构化逻辑推理与临床知识融合的统一解决方案的紧迫性。

四、解决方案:EHRMaster框架实现性能突破

基于上述发现,研究团队提出了一个名为 EHRMaster 的代码增强框架。该框架的核心思想是通过代码生成与执行,来增强LLM处理结构化数据和执行复杂逻辑运算的能力。

实验表明,将EHRMaster与Gemini系列模型结合后,在EHRStruct基准测试中取得了全面突破:

  • 在多项数据驱动任务(如D-R4、D-R5算术计算)上达到了100%的准确率
  • 在具有挑战性的知识驱动任务上,也实现了对之前最优方法(SOTA)的显著超越。

这一成果证明,通过针对性的架构设计,可以有效弥补通用大模型在特定结构化任务上的短板,为构建更可靠、可用的医疗AI系统提供了新的技术路径。

五、行业影响与未来展望:开启医疗AI评估新纪元

EHRStruct基准的发布,为医疗大模型的研发与评估树立了一个新的标杆。它不仅是一个评测工具,更是一个推动领域发展的平台:

  1. 推动技术透明与可比性:统一的基准使得不同模型、不同方法之间的性能对比成为可能,加速了最优技术的迭代与收敛。
  2. 指引研发方向:其揭示的“通用模型优于专用模型”、“数据与知识任务表现分离”等现象,为后续模型训练(如高质量医学数据整合、专业知识注入方式)提供了明确的研究方向。
  3. 连接学术与产业:同步启动的 “EHRStruct 2026 – LLM结构化电子病历挑战赛” ,已在Codabench平台上线排行榜。这为全球学术界和工业界的研究者提供了一个同台竞技、交流合作的开放平台,预计将催生一批高质量的研究成果。

当前,全球主要经济体正围绕人工智能展开战略竞争,中国在《全球AI治理行动计划》中强调国际合作与标准规范,而美国则更聚焦于技术领先与产业出口。在医疗AI这一关键垂直领域,EHRStruct这类基准的出现,有助于建立客观、公正的技术评估体系,对于全球范围内构建可信、可控的医疗人工智能生态具有重要意义。

从更广阔的视角看,这类似于中国在空天信息领域构建“通导遥”一体化的“东方慧眼”系统,或是在地图导航领域实现“北斗+5G”深度融合,其本质都是通过构建自主、精准的基础设施或标准体系,来赋能上层应用,推动整个行业向更智能、更可靠的方向演进。EHRStruct基准正是医疗AI迈向“高精时代”所急需的一块基石。

文章来源:本文基于南洋理工大学发布于arXiv的论文《EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks》及相关公开资料进行综合撰写。

© 版权声明

相关文章

暂无评论

none
暂无评论...