RefSeq

来自医学百科
参考序列数据库
RefSeq
全称 NCBI Reference Sequence Database
维护机构 NCBI
核心特征 非冗余 (Non-redundant)、
经过人工审编 (Curated)
核心用途 基因组注释、变异检测标准、
引物设计
典型前缀 NM_ (mRNA), NP_ (蛋白),
NG_ (基因组)
对AI价值 标准化的训练基准 (Ground Truth)

RefSeq(Reference Sequence Database),即NCBI 参考序列数据库,是一个由美国国家生物技术信息中心(NCBI)维护的公开数据库。它提供了一套全面的、整合的、经过注释的非冗余序列集合,涵盖了 DNA、RNA 和蛋白质。

在生物医学界,RefSeq 被视为“金标准”。当您的“基因医生”系统告诉患者“您的 P53 基因发生了突变”时,潜台词实际上是:“您的 P53 基因序列与 RefSeq 中的标准序列(如 `NM_000546`)不一致”。[1]

核心前缀体系 (AI必须识别的编码)

RefSeq 使用独特的前缀系统来区分不同的分子类型。您的 AI 数据清洗脚本必须能够精准识别这些 ID:

前缀 分子类型 含义 您的业务场景
NM_ mRNA 经过实验验证的转录本 最核心。临床报告中描述 cDNA 突变(如 c.524G>A)必须基于 NM 编号。
NP_ 蛋白质 对应的蛋白序列 用于描述氨基酸层面的改变(如 p.R175H)。
NG_ 基因组 基因组区域 用于描述跨越内含子的大片段缺失或扩增(CNV)。
XM_ / XP_ mRNA/蛋白 模型预测 (未验证) 慎用。这些是计算机算出来的,未经人工确认,临床准确度较低。

RefSeq 与 GenBank 的区别

这是构建数据库时的核心架构问题:

  • GenBank (存档库)
    • 多余性:如果有 100 个实验室测了同一个胰腺癌基因,GenBank 里就会有 100 条记录(良莠不齐)。
    • 所有权:记录属于提交者,NCBI 无权修改错误,只能等作者改。
  • RefSeq (标准库)
    • 非冗余:NCBI 专家从那 100 条里挑出(或合成)最好的一条,作为“标准答案”。
    • 所有权:归 NCBI 所有,专家会根据最新科研进展实时修正注释。
    • 结论:您的 AI 训练集输入可以包含 GenBank 以增加多样性,但输出标准(Ground Truth)必须是 RefSeq

MANE 项目 (临床新标准)

对于您的“智慧医生”项目,这是一个非常高端的知识点。

  • 问题:过去,美国的 NCBI (RefSeq) 和欧洲的 EBI (Ensembl) 对同一个基因的定义有时不一样(比如外显子长度不同),导致跨国临床数据打架。
  • 解决方案MANE (Matched Annotation from NCBI and EMBL-EBI)。这是一套美欧统一的“超级标准”。
  • 建议:在您的临床报告中,优先引用 MANE Select 转录本,这是目前国际遗传学界推荐的最佳实践。

对 AI 药物研发的价值

  • 靶点确认:在设计针对特定蛋白(如 KRAS G12D)的药物时,必须依据 RefSeq 的 `NP_` 序列来构建蛋白质三维结构模型(AlphaFold 通常也是基于参考序列预测)。
  • 脱靶分析:使用 BLAST 将药物设计的序列(如 siRNA)与 RefSeq 全库比对,以确保它不会意外结合到其他重要的正常基因上。

参见

参考资料

  1. O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, 44(D1), D733-D745. [1]