PMC

来自医学百科
PubMed Central
英文缩写 PMC
维护机构 NIH 下属的 NLM
上线时间 2000年2月
核心特征 免费全文 (Free Full Text)
收录文章数 > 930 万篇 (2024年)
法律依据 NIH 公共获取政策
(Public Access Policy)
对AI价值 医疗大模型训练的
最大全文语料库

PubMed Central(简称PMC),是由美国国家医学图书馆(NLM)运营的一个免费的、永久性的生物医学和生命科学期刊文献数字档案库。

PubMed 不同(PubMed 主要提供摘要),PMC 提供全文(Full Text)访问。它是全球开放科学(Open Science)运动的里程碑。所有由美国国立卫生研究院(NIH)资助的研究成果,在发表后必须强制上传至 PMC 供公众免费阅读。[1]

PMC 与 PubMed 的关键区别

这是初学者最容易混淆的概念,但对于数据工程师至关重要:

  • PubMed = 搜索引擎(类似 Google)。
    • 它包含超过 3600 万条记录,但绝大多数只展示标题和摘要(Abstract)。
    • 如果您想看全文,通常需要点击链接跳转到出版商(如 Nature, Elsevier)的网站,而那里通常有付费墙(Paywall)。
  • PMC = 数字图书馆(类似书架)。
    • 它存储的是文章的物理文件(XML/PDF)。
    • 在 PMC 里的每一篇文章,您都可以直接免费下载全文。
    • 关系:PMC 收录的所有文章都能在 PubMed 里搜到,但 PubMed 里搜到的文章只有一部分(约 1/4)存放在 PMC 里。

核心数据集:PMC Open Access Subset

对于您的“智慧医生”AI 项目,这是最有价值的部分。

  • 定义:PMC 中有一部分文章不仅免费阅读,还允许机器挖掘(Text Mining)和二次使用。这就是 PMC Open Access Subset
  • 规模:包含数百万篇结构化良好的 XML 格式全文。
  • 用途:这是目前训练医疗垂直大模型(LLM)最核心的全文语料库。
    • 摘要 vs 全文:仅训练摘要,AI 只能学会“结果”;训练全文,AI 才能学会“方法”和“逻辑推理”。例如,具体的药物配方、实验步骤、不良事件的详细描述,通常只存在于全文的“方法”或“讨论”章节中。

法律与政策背景

PMC 的快速壮大得益于强有力的政策推动:

  • NIH 公共获取政策 (2008):美国法律规定,凡是拿了 NIH 经费(纳税人的钱)做出来的研究,必须在发表后的 12 个月内,将最终审稿手稿(Author Manuscript)上传到 PMC。[2]
  • Plan S (欧洲):类似的开放获取计划也在欧洲推行,催生了 PMC 的姊妹站点 Europe PMC

对 AI 药物研发的意义

  • 挖掘负面结果:很多药物研发的失败案例(Negative Results)隐藏在全文的图表或附件中。通过挖掘 PMC 全文,AI 可以帮助药企避免重复前人的失败路径。
  • 多模态学习:PMC 文章中包含大量病理切片、CT 影像和图表。这是训练多模态 AI(既能看图又能读文)的最佳数据源。

参见

参考资料

  1. National Library of Medicine. (2023). PMC Overview. [1]
  2. National Institutes of Health. (2008). NIH Public Access Policy Details. [2]