PMC
来自医学百科
| PubMed Central | |
|---|---|
| 英文缩写 | PMC |
| 维护机构 | NIH 下属的 NLM |
| 上线时间 | 2000年2月 |
| 核心特征 | 免费全文 (Free Full Text) |
| 收录文章数 | > 930 万篇 (2024年) |
| 法律依据 |
NIH 公共获取政策 (Public Access Policy) |
| 对AI价值 |
医疗大模型训练的 最大全文语料库 |
PubMed Central(简称PMC),是由美国国家医学图书馆(NLM)运营的一个免费的、永久性的生物医学和生命科学期刊文献数字档案库。
与 PubMed 不同(PubMed 主要提供摘要),PMC 提供全文(Full Text)访问。它是全球开放科学(Open Science)运动的里程碑。所有由美国国立卫生研究院(NIH)资助的研究成果,在发表后必须强制上传至 PMC 供公众免费阅读。[1]
PMC 与 PubMed 的关键区别
这是初学者最容易混淆的概念,但对于数据工程师至关重要:
- PubMed = 搜索引擎(类似 Google)。
- 它包含超过 3600 万条记录,但绝大多数只展示标题和摘要(Abstract)。
- 如果您想看全文,通常需要点击链接跳转到出版商(如 Nature, Elsevier)的网站,而那里通常有付费墙(Paywall)。
- PMC = 数字图书馆(类似书架)。
- 它存储的是文章的物理文件(XML/PDF)。
- 在 PMC 里的每一篇文章,您都可以直接免费下载全文。
- 关系:PMC 收录的所有文章都能在 PubMed 里搜到,但 PubMed 里搜到的文章只有一部分(约 1/4)存放在 PMC 里。
核心数据集:PMC Open Access Subset
对于您的“智慧医生”AI 项目,这是最有价值的部分。
- 定义:PMC 中有一部分文章不仅免费阅读,还允许机器挖掘(Text Mining)和二次使用。这就是 PMC Open Access Subset。
- 规模:包含数百万篇结构化良好的 XML 格式全文。
- 用途:这是目前训练医疗垂直大模型(LLM)最核心的全文语料库。
- 摘要 vs 全文:仅训练摘要,AI 只能学会“结果”;训练全文,AI 才能学会“方法”和“逻辑推理”。例如,具体的药物配方、实验步骤、不良事件的详细描述,通常只存在于全文的“方法”或“讨论”章节中。
法律与政策背景
PMC 的快速壮大得益于强有力的政策推动:
- NIH 公共获取政策 (2008):美国法律规定,凡是拿了 NIH 经费(纳税人的钱)做出来的研究,必须在发表后的 12 个月内,将最终审稿手稿(Author Manuscript)上传到 PMC。[2]
- Plan S (欧洲):类似的开放获取计划也在欧洲推行,催生了 PMC 的姊妹站点 Europe PMC。
对 AI 药物研发的意义
- 挖掘负面结果:很多药物研发的失败案例(Negative Results)隐藏在全文的图表或附件中。通过挖掘 PMC 全文,AI 可以帮助药企避免重复前人的失败路径。
- 多模态学习:PMC 文章中包含大量病理切片、CT 影像和图表。这是训练多模态 AI(既能看图又能读文)的最佳数据源。