BLAST

来自医学百科
BLAST
Basic Local Alignment Search Tool
全称 Basic Local Alignment Search Tool
开发者 Altschul, Gish, Miller,
Myers, Lipman (1990)
维护机构 NCBI
核心算法 启发式局部比对算法
统计指标 E-value (期望值)
常见变体 blastn, blastp, blastx
对AI价值 基因特征提取、
序列相似性计算

BLAST英文名:Basic Local Alignment Search Tool,即“基本局部比对搜索工具”),是一套在生物信息学领域使用最广泛的算法和程序,用于比较初级生物序列信息(如蛋白质的氨基酸序列或 DNA 的核苷酸序列)。

BLAST 被誉为生物学界的“Google”。它可以让研究人员输入一段未知的序列(Query),然后在巨大的数据库(如 GenBank)中迅速找到与之相似的已知序列(Subject)。对于您的“基因医生”项目,它是确认患者基因突变位点最基础的工具。[1]

核心原理

与“全局比对”(Global Alignment,如 Needleman-Wunsch 算法)试图从头到尾对齐两条序列不同,BLAST 采用局部比对(Local Alignment)策略:

  • 种子延伸法:它先寻找短的、完全匹配的片段(称为“种子”或 Word),然后向两端延伸,直到相似度下降到阈值以下。
  • 优势:这种启发式算法比全局比对快几个数量级,使其能够处理 GenBank 这种 PB 级别的数据量。

五大核心变体 (技术选型指南)

您的 AI 团队在编写自动分析流程(Pipeline)时,必须根据数据类型选择正确的程序:

程序名 查询序列 (Input) 目标数据库 典型应用场景
blastn 核苷酸 (DNA/RNA) 核苷酸 寻找同源基因、映射引物位置
blastp 蛋白质 蛋白质 寻找功能相似的蛋白、药物靶点分析
blastx 核苷酸 (翻译后) 蛋白质 最常用:分析未知 DNA 片段可能编码什么蛋白
tblastn 蛋白质 核苷酸 (翻译后) 在未注释的基因组中寻找新基因
tblastx 核苷酸 (翻译后) 核苷酸 (翻译后) 远缘物种间的深度同源性分析

关键统计指标:E-value

这是解读 BLAST 结果的灵魂。

  • 定义:E-value (Expect Value) 表示在随机情况下,在这么大的数据库中找到得分如此高的匹配结果的期望次数
  • 解读规则
    • 越小越好:E-value 越接近 0,说明匹配越不可能是巧合(即具有真实的生物学意义)。
    • 阈值:通常 E-value < $10^{-5}$ 被认为有统计学意义;在“基因医生”的临床诊断中,通常要求 E-value 接近 0(如 $10^{-100}$)。

实际应用与 AI 结合

  • 本地化部署 (Local BLAST):出于患者隐私(HIPAA/GCP 合规)考虑,您的“智慧医生”系统不应直接把患者序列传到 NCBI 的公网服务器。您需要在公司内部服务器搭建 Local BLAST+,并在内网运行比对。[2]
  • 特征工程:在训练基因组大模型时,BLAST 的比对结果(如一致性百分比、覆盖度)是极其重要的特征输入(Feature Engineering),可以帮助 AI 判断一个变异是否会导致功能丧失。

参见

参考资料

  1. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
  2. NCBI. (2023). BLAST® Command Line Applications User Manual. [1]