GenBank
来自医学百科
| GenBank 基因银行 | |
|---|---|
| 维护机构 | NCBI (美国) |
| 成立时间 | 1982年 |
| 所属联盟 | INSDC (国际核苷酸序列数据库联盟) |
| 数据量 | > 2.5 亿条序列 (2024年) |
| 核心功能 | 存储公开的 DNA/RNA 序列 |
| 关键区别 | GenBank (存档) vs RefSeq (标准) |
| 对AI价值 |
基因组学大模型 (Genomic LLM) 的训练语料 |
GenBank 是一个开放获取的核苷酸序列数据库,包含了所有公开的 DNA 和 RNA 序列及其注释信息。它由美国国家生物技术信息中心(NCBI)负责维护。
它是现代生命科学研究的基石。无论是新冠病毒的测序,还是癌症基因突变的发现,所有原始序列数据最终都会汇聚于此。GenBank 与欧洲的 **ENA** 和日本的 **DDBJ** 共同组成了 **INSDC** 联盟,三方数据每天同步,确保全球科学家使用的是同一套数据。[1]
核心数据结构 (Flat File)
GenBank 使用一种经典的“纯文本”格式(GenBank Flat File)来存储数据。这种格式虽然古老,但至今仍是生物信息学的通用标准:
- LOCUS:序列的基本信息(长度、类型、日期)。
- ACCESSION:登录号(如 `NM_000546`)。这是序列的唯一身份证,您的 AI 系统在引用基因时必须使用此号码,以避免歧义。
- FEATURES:特征表。详细描述了基因的各个部分,如 CDS(编码区)、Exon(外显子)、Promoter(启动子)。AI 可以通过解析这些标签,学习基因的语法结构。
- ORIGIN:实际的碱基序列(A, T, C, G)。
GenBank vs RefSeq (关键区分)
这是您的技术团队在开发“基因医生”诊断系统时最容易踩的坑:
1. GenBank (档案库)
- 性质:它是“作者提交什么,就存什么”。
- 冗余性:同一个基因可能有几千个不同实验室提交的版本,质量参差不齐,甚至包含错误。
- 用途:用于科学研究,查看基因的多样性。
2. RefSeq (参考序列库)
- 性质:它是 NCBI 官方精选的“标准答案”。
- 唯一性:每个基因通常只有一个最佳的 RefSeq 序列。
- 用途:临床诊断的标准。当您的 AI 报告说患者在 `TP53` 基因上有突变时,必须是相对于 `RefSeq` 标准序列(如 hg19 或 hg38)而言的差异。[2]
数据提交与更新
- BankIt:基于 Web 的提交工具,用于少量序列提交。
- Sequin:传统的独立软件,用于复杂提交。
- 数据增长:GenBank 的数据量呈指数级增长(摩尔定律在生物界的体现),大约每 18 个月翻一番。这要求您的 AI 基础设施必须具备处理 PB 级数据的能力。
对 AI 基因组学的价值
随着 AI 能够理解“生物语言”(DNA/Protein),GenBank 成为了训练 Genomic LLM(如 DNABERT, Nucleotide Transformer)的核心语料库。
- 序列预测:AI 学习了 GenBank 中的数十亿条序列后,可以预测未知的基因功能或突变后果。
- 合成生物学:AI 可以利用这些数据设计出自然界不存在的全新蛋白质序列。