Nature Medicine 2026年6月26日在线发表论文,评估大型前沿模型在健康AI应用中的稳健性和准备程度。论文指出,GPT-5、Gemini 等模型在多种健康应用基准测试中表现突出,但高分背后仍存在重要短板,尤其是在多模态医学推理等前沿场景中。
研究团队系统引入并整合了一系列对抗性压力测试,用于评估旗舰模型和健康基准测试的稳健性。论文摘要称,领先系统在面对简单输入变换时表现出普遍脆弱性:模型有时即使关键输入被移除也能“猜中”正确答案,但面对轻微提示变化又可能混淆,并生成看似可信却存在缺陷的推理轨迹。
研究还使用临床医生指导的评分规则,分析常用健康基准究竟测量了什么。作者认为,不同基准之间差异很大,一些基准未必能充分捕捉临床相关表现,尤其难以支持关于多模态医学推理能力的强结论。也就是说,模型在公开题库或图文问答任务上得分较高,并不等同于已经适合真实医疗环境。
论文涉及 VQA-RAD、OmniMedVQA、PMC-VQA、PathVQA、SLAKE、MMMU 健康与医学主题等公开数据,也使用了需凭证访问或受版权限制的数据。作者说明,最小化复现所需的基准索引、扰动规范、提示模板、评分注释、复杂度评级和图表源数据已通过 Zenodo 归档,但部分受版权或隐私限制的临床材料不能重新分发。
这项研究的重点不是判断某一个模型“能不能看病”,而是提示健康AI评估应从单一分数转向稳健性证据。对于医学应用,尤其是图像、文本、实验室结果等多模态任务,模型需要在输入不完整、表述变化、噪声和临床复杂性下保持可靠,而不是只在固定格式题目中表现良好。
论文性质为模型评测和方法研究,不是临床试验,也不提供针对具体疾病的诊疗建议。其结论更适合作为监管、医院采购、模型开发和医学AI基准建设时的参考:高基准成绩需要用压力测试、临床规则和真实工作流验证来补充。
原文链接:http://www.nature.com/articles/s41591-026-04501-8
免责声明:本文仅供医学资讯参考,不构成诊疗建议。