BLAST
来自医学百科
| BLAST Basic Local Alignment Search Tool | |
|---|---|
| 全称 | Basic Local Alignment Search Tool |
| 开发者 |
Altschul, Gish, Miller, Myers, Lipman (1990) |
| 维护机构 | NCBI |
| 核心算法 | 启发式局部比对算法 |
| 统计指标 | E-value (期望值) |
| 常见变体 | blastn, blastp, blastx |
| 对AI价值 |
基因特征提取、 序列相似性计算 |
BLAST(英文名:Basic Local Alignment Search Tool,即“基本局部比对搜索工具”),是一套在生物信息学领域使用最广泛的算法和程序,用于比较初级生物序列信息(如蛋白质的氨基酸序列或 DNA 的核苷酸序列)。
BLAST 被誉为生物学界的“Google”。它可以让研究人员输入一段未知的序列(Query),然后在巨大的数据库(如 GenBank)中迅速找到与之相似的已知序列(Subject)。对于您的“基因医生”项目,它是确认患者基因突变位点最基础的工具。[1]
核心原理
与“全局比对”(Global Alignment,如 Needleman-Wunsch 算法)试图从头到尾对齐两条序列不同,BLAST 采用局部比对(Local Alignment)策略:
- 种子延伸法:它先寻找短的、完全匹配的片段(称为“种子”或 Word),然后向两端延伸,直到相似度下降到阈值以下。
- 优势:这种启发式算法比全局比对快几个数量级,使其能够处理 GenBank 这种 PB 级别的数据量。
五大核心变体 (技术选型指南)
您的 AI 团队在编写自动分析流程(Pipeline)时,必须根据数据类型选择正确的程序:
| 程序名 | 查询序列 (Input) | 目标数据库 | 典型应用场景 |
|---|---|---|---|
| blastn | 核苷酸 (DNA/RNA) | 核苷酸 | 寻找同源基因、映射引物位置 |
| blastp | 蛋白质 | 蛋白质 | 寻找功能相似的蛋白、药物靶点分析 |
| blastx | 核苷酸 (翻译后) | 蛋白质 | 最常用:分析未知 DNA 片段可能编码什么蛋白 |
| tblastn | 蛋白质 | 核苷酸 (翻译后) | 在未注释的基因组中寻找新基因 |
| tblastx | 核苷酸 (翻译后) | 核苷酸 (翻译后) | 远缘物种间的深度同源性分析 |
关键统计指标:E-value
这是解读 BLAST 结果的灵魂。
- 定义:E-value (Expect Value) 表示在随机情况下,在这么大的数据库中找到得分如此高的匹配结果的期望次数。
- 解读规则:
- 越小越好:E-value 越接近 0,说明匹配越不可能是巧合(即具有真实的生物学意义)。
- 阈值:通常 E-value < $10^{-5}$ 被认为有统计学意义;在“基因医生”的临床诊断中,通常要求 E-value 接近 0(如 $10^{-100}$)。
实际应用与 AI 结合
- 本地化部署 (Local BLAST):出于患者隐私(HIPAA/GCP 合规)考虑,您的“智慧医生”系统不应直接把患者序列传到 NCBI 的公网服务器。您需要在公司内部服务器搭建 Local BLAST+,并在内网运行比对。[2]
- 特征工程:在训练基因组大模型时,BLAST 的比对结果(如一致性百分比、覆盖度)是极其重要的特征输入(Feature Engineering),可以帮助 AI 判断一个变异是否会导致功能丧失。