NCBI

来自医学百科
国家生物技术信息中心
National Center for Biotechnology Information
英文缩写 NCBI
上级机构 NIH 下属的 NLM
成立时间 1988年 (克劳德·佩珀法案)
核心数据库 GenBankPubMed
ClinVar、dbSNP
著名工具 BLAST (序列比对)、
Entrez (检索系统)
对AI价值 全球最大的生物信息
结构化数据中心

国家生物技术信息中心英文名:National Center for Biotechnology Information,简称NCBI),是美国NIH下属的一个分支机构,位于马里兰州的贝塞斯达。

NCBI 的核心任务是开发自动化的信息处理系统,以存储、分析和解释分子生物学、生物化学和遗传学数据。对于生物医药行业,NCBI 实际上扮演了全球“生物数据央行”的角色。您的技术团队每天调用的 API 接口(E-utilities),绝大部分直接指向 NCBI 的服务器。[1]

核心数据库 (AI 的“粮食”)

NCBI 维护着数十个数据库,其中对您的“基因医生”和“智慧医生”项目至关重要的包括:

1. GenBank (基因银行)

  • 内容:包含所有已公开的 DNA 序列。
  • 价值:这是您的“基因医生”进行测序比对的基础参照系。任何新发现的基因突变,都必须与 GenBank 中的参考序列(RefSeq)进行比对才能确认。

2. ClinVar (临床变异库)

  • 内容:记录基因变异(Variation)与人类健康(Phenotype)之间的关系。
  • 核心价值:这是AI 诊断的黄金标准。
    • 当您的 AI 发现患者有一个 `BRCA1` 基因突变时,它怎么知道这个突变是“致病的”(Pathogenic)还是“良性的”(Benign)?
    • 答案就在 ClinVar。它汇集了全球专家的判读结果。如果 ClinVar 说它是致病的,您的 AI 才能在报告里提示风险。

3. dbSNP (单核苷酸多态性库)

  • 内容:收录人类和其他物种的微小基因变异(SNP)。
  • 价值:用于药物基因组学分析(例如:为什么某种药对这个人无效?可能是因为某个 SNP 导致的代谢酶差异)。

4. PubMed & PMC

  • 虽然由 NLM 管辖,但实际的数据托管和检索引擎是由 NCBI 的技术团队维护的。

核心工具与技术

1. BLAST (局部比对搜索工具)

  • Basic Local Alignment Search Tool
  • 这是生物信息学领域的“Google”。输入一段未知的 DNA 序列,BLAST 能在几秒钟内从数十亿条序列中找出它属于哪个物种、哪个基因。
  • AI应用:您的系统在处理原始测序数据(FASTQ文件)时,底层算法往往依赖 BLAST 或其变体。

2. Entrez Programming Utilities (E-utilities)

  • 这是 NCBI 提供的标准 API 接口。
  • 自动化:您的 AI 后台可以通过 E-utilities 自动抓取最新的文献、基因数据和变异信息,实现知识库的每日自动更新(Daily Build)。

组织架构关系

很多非专业人士容易混淆,但您需要清晰区分:

  • NIH = 出资方(政府部门,大老板)。
  • NLM = 管理方(国家医学图书馆,NCBI 的顶头上司)。
  • NCBI = 运营方(IT 部门,负责写代码、修服务器、维护数据库)。

参见

参考资料

  1. National Center for Biotechnology Information. (2023). Our Mission. [1]