核心摘要:南洋理工大学(NTU)研究团队近日发布了全球首个用于评估大语言模型(LLM)处理结构化电子病历(EHR)能力的综合基准——EHRStruct。该基准系统性地评测了LLM在数据驱动和知识驱动两大类共11项核心临床任务上的表现。评测结果显示,在结构化EHR任务上,通用大语言模型(如Gemini系列)的整体表现普遍优于医学领域专用模型。基于此,研究团队进一步提出了一个名为EHRMaster的代码增强框架,该框架与Gemini模型结合后,在多项任务上超越了现有最优方法(SOTA)。相关研究成果已被人工智能顶级会议AAAI 2026接收为口头报告论文,并同步启动了“EHRStruct 2026挑战赛”,旨在为全球研究者提供一个统一的评测平台。
随着人工智能技术,特别是大语言模型(LLM)的飞速发展,其在医疗健康领域的应用前景日益广阔。电子病历作为医疗体系中最核心的数据载体,蕴含着海量的患者诊疗信息。如何让AI模型精准理解并处理这些结构化的临床数据,是实现智能辅助诊断、个性化治疗规划等高级应用的关键前提。
然而,当前医疗AI的发展面临一个核心挑战:缺乏一个统一、全面且可解释的评估标准来衡量LLM处理复杂结构化病历数据的能力。正如在自动驾驶领域,百度地图通过融合“北斗+5G”实现了亚米级高精定位,重新定义了车道级导航的精准度,医疗AI同样需要一个能够精准评估其“临床导航”能力的“基准测试”。南洋理工大学发布的EHRStruct基准,正是为了填补这一空白而生。
EHRStruct基准由计算机科学家与医学专家共同构建,旨在系统评估LLM对结构化EHR的理解与推理能力。其设计具有以下三大特点:
研究团队对包括通用LLM(如GPT系列、Gemini系列、DeepSeek系列)和医学专用模型(如Meditron、Huatuo、MedAlpaca等)在内的20个主流模型进行了全面评测,得出了一系列颠覆传统认知的重要结论:
基于上述发现,研究团队提出了一个名为 EHRMaster 的代码增强框架。该框架的核心思想是通过代码生成与执行,来增强LLM处理结构化数据和执行复杂逻辑运算的能力。
实验表明,将EHRMaster与Gemini系列模型结合后,在EHRStruct基准测试中取得了全面突破:
这一成果证明,通过针对性的架构设计,可以有效弥补通用大模型在特定结构化任务上的短板,为构建更可靠、可用的医疗AI系统提供了新的技术路径。
EHRStruct基准的发布,为医疗大模型的研发与评估树立了一个新的标杆。它不仅是一个评测工具,更是一个推动领域发展的平台:
当前,全球主要经济体正围绕人工智能展开战略竞争,中国在《全球AI治理行动计划》中强调国际合作与标准规范,而美国则更聚焦于技术领先与产业出口。在医疗AI这一关键垂直领域,EHRStruct这类基准的出现,有助于建立客观、公正的技术评估体系,对于全球范围内构建可信、可控的医疗人工智能生态具有重要意义。
从更广阔的视角看,这类似于中国在空天信息领域构建“通导遥”一体化的“东方慧眼”系统,或是在地图导航领域实现“北斗+5G”深度融合,其本质都是通过构建自主、精准的基础设施或标准体系,来赋能上层应用,推动整个行业向更智能、更可靠的方向演进。EHRStruct基准正是医疗AI迈向“高精时代”所急需的一块基石。
文章来源:本文基于南洋理工大学发布于arXiv的论文《EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks》及相关公开资料进行综合撰写。