RefSeq
来自医学百科
| 参考序列数据库 RefSeq | |
|---|---|
| 全称 | NCBI Reference Sequence Database |
| 维护机构 | NCBI |
| 核心特征 |
非冗余 (Non-redundant)、 经过人工审编 (Curated) |
| 核心用途 |
基因组注释、变异检测标准、 引物设计 |
| 典型前缀 |
NM_ (mRNA), NP_ (蛋白), NG_ (基因组) |
| 对AI价值 | 标准化的训练基准 (Ground Truth) |
RefSeq(Reference Sequence Database),即NCBI 参考序列数据库,是一个由美国国家生物技术信息中心(NCBI)维护的公开数据库。它提供了一套全面的、整合的、经过注释的非冗余序列集合,涵盖了 DNA、RNA 和蛋白质。
在生物医学界,RefSeq 被视为“金标准”。当您的“基因医生”系统告诉患者“您的 P53 基因发生了突变”时,潜台词实际上是:“您的 P53 基因序列与 RefSeq 中的标准序列(如 `NM_000546`)不一致”。[1]
核心前缀体系 (AI必须识别的编码)
RefSeq 使用独特的前缀系统来区分不同的分子类型。您的 AI 数据清洗脚本必须能够精准识别这些 ID:
| 前缀 | 分子类型 | 含义 | 您的业务场景 |
|---|---|---|---|
| NM_ | mRNA | 经过实验验证的转录本 | 最核心。临床报告中描述 cDNA 突变(如 c.524G>A)必须基于 NM 编号。 |
| NP_ | 蛋白质 | 对应的蛋白序列 | 用于描述氨基酸层面的改变(如 p.R175H)。 |
| NG_ | 基因组 | 基因组区域 | 用于描述跨越内含子的大片段缺失或扩增(CNV)。 |
| XM_ / XP_ | mRNA/蛋白 | 模型预测 (未验证) | 慎用。这些是计算机算出来的,未经人工确认,临床准确度较低。 |
RefSeq 与 GenBank 的区别
这是构建数据库时的核心架构问题:
- GenBank (存档库):
- 多余性:如果有 100 个实验室测了同一个胰腺癌基因,GenBank 里就会有 100 条记录(良莠不齐)。
- 所有权:记录属于提交者,NCBI 无权修改错误,只能等作者改。
- RefSeq (标准库):
- 非冗余:NCBI 专家从那 100 条里挑出(或合成)最好的一条,作为“标准答案”。
- 所有权:归 NCBI 所有,专家会根据最新科研进展实时修正注释。
- 结论:您的 AI 训练集输入可以包含 GenBank 以增加多样性,但输出标准(Ground Truth)必须是 RefSeq。
MANE 项目 (临床新标准)
对于您的“智慧医生”项目,这是一个非常高端的知识点。
- 问题:过去,美国的 NCBI (RefSeq) 和欧洲的 EBI (Ensembl) 对同一个基因的定义有时不一样(比如外显子长度不同),导致跨国临床数据打架。
- 解决方案:MANE (Matched Annotation from NCBI and EMBL-EBI)。这是一套美欧统一的“超级标准”。
- 建议:在您的临床报告中,优先引用 MANE Select 转录本,这是目前国际遗传学界推荐的最佳实践。
对 AI 药物研发的价值
- 靶点确认:在设计针对特定蛋白(如 KRAS G12D)的药物时,必须依据 RefSeq 的 `NP_` 序列来构建蛋白质三维结构模型(AlphaFold 通常也是基于参考序列预测)。
- 脱靶分析:使用 BLAST 将药物设计的序列(如 siRNA)与 RefSeq 全库比对,以确保它不会意外结合到其他重要的正常基因上。