Nature Medicine：健康AI评测需关注模型稳健性，而不只是基准分数

Nature Medicine 2026年6月26日在线发表论文，评估大型前沿模型在健康AI应用中的稳健性和准备程度。论文指出，GPT-5、Gemini 等模型在多种健康应用基准测试中表现突出，但高分背后仍存在重要短板，尤其是在多模态医学推理等前沿场景中。

研究团队系统引入并整合了一系列对抗性压力测试，用于评估旗舰模型和健康基准测试的稳健性。论文摘要称，领先系统在面对简单输入变换时表现出普遍脆弱性：模型有时即使关键输入被移除也能“猜中”正确答案，但面对轻微提示变化又可能混淆，并生成看似可信却存在缺陷的推理轨迹。

研究还使用临床医生指导的评分规则，分析常用健康基准究竟测量了什么。作者认为，不同基准之间差异很大，一些基准未必能充分捕捉临床相关表现，尤其难以支持关于多模态医学推理能力的强结论。也就是说，模型在公开题库或图文问答任务上得分较高，并不等同于已经适合真实医疗环境。

论文涉及 VQA-RAD、OmniMedVQA、PMC-VQA、PathVQA、SLAKE、MMMU 健康与医学主题等公开数据，也使用了需凭证访问或受版权限制的数据。作者说明，最小化复现所需的基准索引、扰动规范、提示模板、评分注释、复杂度评级和图表源数据已通过 Zenodo 归档，但部分受版权或隐私限制的临床材料不能重新分发。

这项研究的重点不是判断某一个模型“能不能看病”，而是提示健康AI评估应从单一分数转向稳健性证据。对于医学应用，尤其是图像、文本、实验室结果等多模态任务，模型需要在输入不完整、表述变化、噪声和临床复杂性下保持可靠，而不是只在固定格式题目中表现良好。

论文性质为模型评测和方法研究，不是临床试验，也不提供针对具体疾病的诊疗建议。其结论更适合作为监管、医院采购、模型开发和医学AI基准建设时的参考：高基准成绩需要用压力测试、临床规则和真实工作流验证来补充。

原文链接：http://www.nature.com/articles/s41591-026-04501-8

免责声明：本文仅供医学资讯参考，不构成诊疗建议。