NCBI
来自医学百科
| 国家生物技术信息中心 National Center for Biotechnology Information | |
|---|---|
| 英文缩写 | NCBI |
| 上级机构 | NIH 下属的 NLM |
| 成立时间 | 1988年 (克劳德·佩珀法案) |
| 核心数据库 |
GenBank、PubMed、 ClinVar、dbSNP |
| 著名工具 |
BLAST (序列比对)、 Entrez (检索系统) |
| 对AI价值 |
全球最大的生物信息 结构化数据中心 |
国家生物技术信息中心(英文名:National Center for Biotechnology Information,简称NCBI),是美国NIH下属的一个分支机构,位于马里兰州的贝塞斯达。
NCBI 的核心任务是开发自动化的信息处理系统,以存储、分析和解释分子生物学、生物化学和遗传学数据。对于生物医药行业,NCBI 实际上扮演了全球“生物数据央行”的角色。您的技术团队每天调用的 API 接口(E-utilities),绝大部分直接指向 NCBI 的服务器。[1]
核心数据库 (AI 的“粮食”)
NCBI 维护着数十个数据库,其中对您的“基因医生”和“智慧医生”项目至关重要的包括:
1. GenBank (基因银行)
- 内容:包含所有已公开的 DNA 序列。
- 价值:这是您的“基因医生”进行测序比对的基础参照系。任何新发现的基因突变,都必须与 GenBank 中的参考序列(RefSeq)进行比对才能确认。
2. ClinVar (临床变异库)
- 内容:记录基因变异(Variation)与人类健康(Phenotype)之间的关系。
- 核心价值:这是AI 诊断的黄金标准。
- 当您的 AI 发现患者有一个 `BRCA1` 基因突变时,它怎么知道这个突变是“致病的”(Pathogenic)还是“良性的”(Benign)?
- 答案就在 ClinVar。它汇集了全球专家的判读结果。如果 ClinVar 说它是致病的,您的 AI 才能在报告里提示风险。
3. dbSNP (单核苷酸多态性库)
- 内容:收录人类和其他物种的微小基因变异(SNP)。
- 价值:用于药物基因组学分析(例如:为什么某种药对这个人无效?可能是因为某个 SNP 导致的代谢酶差异)。
4. PubMed & PMC
- 虽然由 NLM 管辖,但实际的数据托管和检索引擎是由 NCBI 的技术团队维护的。
核心工具与技术
1. BLAST (局部比对搜索工具)
- Basic Local Alignment Search Tool。
- 这是生物信息学领域的“Google”。输入一段未知的 DNA 序列,BLAST 能在几秒钟内从数十亿条序列中找出它属于哪个物种、哪个基因。
- AI应用:您的系统在处理原始测序数据(FASTQ文件)时,底层算法往往依赖 BLAST 或其变体。
2. Entrez Programming Utilities (E-utilities)
- 这是 NCBI 提供的标准 API 接口。
- 自动化:您的 AI 后台可以通过 E-utilities 自动抓取最新的文献、基因数据和变异信息,实现知识库的每日自动更新(Daily Build)。
组织架构关系
很多非专业人士容易混淆,但您需要清晰区分:
- NIH = 出资方(政府部门,大老板)。
- NLM = 管理方(国家医学图书馆,NCBI 的顶头上司)。
- NCBI = 运营方(IT 部门,负责写代码、修服务器、维护数据库)。