GenBank

来自医学百科
GenBank
基因银行
维护机构 NCBI (美国)
成立时间 1982年
所属联盟 INSDC (国际核苷酸序列数据库联盟)
数据量 > 2.5 亿条序列 (2024年)
核心功能 存储公开的 DNA/RNA 序列
关键区别 GenBank (存档) vs RefSeq (标准)
对AI价值 基因组学大模型 (Genomic LLM)
的训练语料

GenBank 是一个开放获取的核苷酸序列数据库,包含了所有公开的 DNA 和 RNA 序列及其注释信息。它由美国国家生物技术信息中心(NCBI)负责维护。

它是现代生命科学研究的基石。无论是新冠病毒的测序,还是癌症基因突变的发现,所有原始序列数据最终都会汇聚于此。GenBank 与欧洲的 **ENA** 和日本的 **DDBJ** 共同组成了 **INSDC** 联盟,三方数据每天同步,确保全球科学家使用的是同一套数据。[1]

核心数据结构 (Flat File)

GenBank 使用一种经典的“纯文本”格式(GenBank Flat File)来存储数据。这种格式虽然古老,但至今仍是生物信息学的通用标准:

  • LOCUS:序列的基本信息(长度、类型、日期)。
  • ACCESSION登录号(如 `NM_000546`)。这是序列的唯一身份证,您的 AI 系统在引用基因时必须使用此号码,以避免歧义。
  • FEATURES:特征表。详细描述了基因的各个部分,如 CDS(编码区)、Exon(外显子)、Promoter(启动子)。AI 可以通过解析这些标签,学习基因的语法结构。
  • ORIGIN:实际的碱基序列(A, T, C, G)。

GenBank vs RefSeq (关键区分)

这是您的技术团队在开发“基因医生”诊断系统时最容易踩的坑:

1. GenBank (档案库)

  • 性质:它是“作者提交什么,就存什么”。
  • 冗余性:同一个基因可能有几千个不同实验室提交的版本,质量参差不齐,甚至包含错误。
  • 用途:用于科学研究,查看基因的多样性。

2. RefSeq (参考序列库)

  • 性质:它是 NCBI 官方精选的“标准答案”。
  • 唯一性:每个基因通常只有一个最佳的 RefSeq 序列。
  • 用途临床诊断的标准。当您的 AI 报告说患者在 `TP53` 基因上有突变时,必须是相对于 `RefSeq` 标准序列(如 hg19 或 hg38)而言的差异。[2]

数据提交与更新

  • BankIt:基于 Web 的提交工具,用于少量序列提交。
  • Sequin:传统的独立软件,用于复杂提交。
  • 数据增长:GenBank 的数据量呈指数级增长(摩尔定律在生物界的体现),大约每 18 个月翻一番。这要求您的 AI 基础设施必须具备处理 PB 级数据的能力。

对 AI 基因组学的价值

随着 AI 能够理解“生物语言”(DNA/Protein),GenBank 成为了训练 Genomic LLM(如 DNABERT, Nucleotide Transformer)的核心语料库。

  • 序列预测:AI 学习了 GenBank 中的数十亿条序列后,可以预测未知的基因功能或突变后果。
  • 合成生物学:AI 可以利用这些数据设计出自然界不存在的全新蛋白质序列。

参见

参考资料

  1. Benson, D. A., et al. (2018). GenBank. Nucleic Acids Research, 46(D1), D41-D47. [1]
  2. O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, 44(D1), D733-D745.