Nature Medicine 6月26日发表一项开放获取研究,评估生成式AI临床决策支持系统在低资源基层医疗环境中的实际效果。研究在肯尼亚16家基层医疗机构开展,采用务实性整群随机设计,比较临床医务人员使用带有大语言模型辅助的电子病历系统,与常规电子病历系统之间的差异。
研究纳入时间为2025年4月22日至7月16日,共有9691名患者进入分析,由103名临床医务人员提供照护,其中52人分配至LLM辅助组,51人分配至对照组。主要结局是入组后14天内由专家裁定的治疗失败复合事件,包括需要重新就医、病情进展或治疗相关问题等。
结果显示,干预组4693名患者中有102人发生治疗失败,比例为2.2%;对照组4654名患者中有94人发生治疗失败,比例为2.0%。调整后比值比为0.77,95%置信区间为0.55至1.08,P值为0.13。也就是说,两组主要结局没有统计学显著差异。研究同时报告,没有严重不良事件被判定与AI干预有关,独立不良事件审查也未发现明确安全信号。
论文背景指出,撒哈拉以南非洲基层医疗机构常面临医生短缺,许多诊疗由完成临床医学文凭培训的临床官承担。传统规则型电子决策工具在低中收入国家的作用有限,常受制于逻辑僵硬、数据录入负担和流程整合不足。生成式AI理论上可以处理非结构化信息并给出更灵活的建议,但也存在幻觉、偏倚、与本地流行病学和资源条件不匹配等风险。
这项研究的结论较克制:LLM辅助在该试验中显示为安全,但未能在14天治疗失败上带来显著改善,即使存在获益,也可能较为有限。该结果不否定AI在基层医疗中的潜力,但说明真实世界临床结局需要用随机试验验证,不能只依赖病例题、离线评测或模型考试成绩。
原文链接:http://www.nature.com/articles/s41591-026-04503-6
免责声明:本文仅供医学资讯参考,不构成诊疗建议。