GenBank

GenBank; 基因银行
维护机构	NCBI (美国)
成立时间	1982年
所属联盟	INSDC (国际核苷酸序列数据库联盟)
数据量	> 2.5 亿条序列 (2024年)
核心功能	存储公开的 DNA/RNA 序列
关键区别	GenBank (存档) vs RefSeq (标准)
对AI价值	基因组学大模型 (Genomic LLM); 的训练语料

GenBank 是一个开放获取的核苷酸序列数据库，包含了所有公开的 DNA 和 RNA 序列及其注释信息。它由美国国家生物技术信息中心（NCBI）负责维护。

它是现代生命科学研究的基石。无论是新冠病毒的测序，还是癌症基因突变的发现，所有原始序列数据最终都会汇聚于此。GenBank 与欧洲的 **ENA** 和日本的 **DDBJ** 共同组成了 **INSDC** 联盟，三方数据每天同步，确保全球科学家使用的是同一套数据。^[1]

核心数据结构 (Flat File)

GenBank 使用一种经典的“纯文本”格式（GenBank Flat File）来存储数据。这种格式虽然古老，但至今仍是生物信息学的通用标准：

LOCUS：序列的基本信息（长度、类型、日期）。
ACCESSION：登录号（如 `NM_000546`）。这是序列的唯一身份证，您的 AI 系统在引用基因时必须使用此号码，以避免歧义。
FEATURES：特征表。详细描述了基因的各个部分，如 CDS（编码区）、Exon（外显子）、Promoter（启动子）。AI 可以通过解析这些标签，学习基因的语法结构。
ORIGIN：实际的碱基序列（A, T, C, G）。

GenBank vs RefSeq (关键区分)

这是您的技术团队在开发“基因医生”诊断系统时最容易踩的坑：

1. GenBank (档案库)

性质：它是“作者提交什么，就存什么”。
冗余性：同一个基因可能有几千个不同实验室提交的版本，质量参差不齐，甚至包含错误。
用途：用于科学研究，查看基因的多样性。

2. RefSeq (参考序列库)

性质：它是 NCBI 官方精选的“标准答案”。
唯一性：每个基因通常只有一个最佳的 RefSeq 序列。
用途：临床诊断的标准。当您的 AI 报告说患者在 `TP53` 基因上有突变时，必须是相对于 `RefSeq` 标准序列（如 hg19 或 hg38）而言的差异。^[2]

数据提交与更新

BankIt：基于 Web 的提交工具，用于少量序列提交。
Sequin：传统的独立软件，用于复杂提交。
数据增长：GenBank 的数据量呈指数级增长（摩尔定律在生物界的体现），大约每 18 个月翻一番。这要求您的 AI 基础设施必须具备处理 PB 级数据的能力。

对 AI 基因组学的价值

随着 AI 能够理解“生物语言”（DNA/Protein），GenBank 成为了训练 Genomic LLM（如 DNABERT, Nucleotide Transformer）的核心语料库。

序列预测：AI 学习了 GenBank 中的数十亿条序列后，可以预测未知的基因功能或突变后果。
合成生物学：AI 可以利用这些数据设计出自然界不存在的全新蛋白质序列。

参见

NCBI
BLAST - 搜索 GenBank 的工具
人类基因组计划
生物信息学
RefSeq

参考资料

↑ Benson, D. A., et al. (2018). GenBank. Nucleic Acids Research, 46(D1), D41-D47. [1]
↑ O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, 44(D1), D733-D745.

[GenBank_Overview-1] Benson, D. A., et al. (2018). GenBank. Nucleic Acids Research, 46(D1), D41-D47. [1]

[NCBI_RefSeq-2] O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, 44(D1), D733-D745.

[1]

[2]

匿名

搜索

GenBank

名字空间

更多

页面选项

目录

核心数据结构 (Flat File)

GenBank vs RefSeq (关键区分)

1. GenBank (档案库)

2. RefSeq (参考序列库)

数据提交与更新

对 AI 基因组学的价值

参见

参考资料

导航

导航

功能菜单

Wiki工具

Wiki工具

匿名

搜索

GenBank

核心数据结构 (Flat File)

GenBank vs RefSeq (关键区分)

1. GenBank (档案库)

2. RefSeq (参考序列库)

数据提交与更新

对 AI 基因组学的价值

参见

参考资料

导航

Wiki工具

页面工具

分类