生物信息学

生物信息学（Bioinformatics）是一门高度交叉的学科，它结合了生物学、计算机科学、信息工程、数学和统计学，旨在开发用于存储、检索、组织和分析生物数据（特别是基因组序列和蛋白质结构）的方法和软件工具。
随着人类基因组计划（HGP）的完成和二代测序（NGS）技术的爆发，生物学已从传统的“观察科学”转变为数据密集型的“信息科学”。
生物信息学的核心任务是将海量的、碎片化的生物数据（如 A/T/C/G 序列）转化为有意义的生物学洞见（如致病机理、进化关系、药物靶点），是现代精准医学和新药研发的基石。

Bioinformatics

In Silico Biology (点击展开)

连接“代码”与“生命”的桥梁

学科档案
核心构成	生物学 + 计算机科学 + 统计学
实验类型	干实验 (Dry Lab)
主要数据	DNA/RNA 序列, 蛋白质结构
核心数据库	NCBI (GenBank), PDB
常用工具栈
编程语言	Python, R, Linux Shell
比对算法	BLAST, BWA, Bowtie
变异分析	GATK, Mutect2
结构预测	AlphaFold

三大核心领域 (The Big Three)

生物信息学虽然包罗万象，但其核心工作流主要围绕着中心法则（DNA -> RNA -> Protein）展开。

组学 (Omics)	核心问题	典型分析任务
基因组学 (Genomics)	“我有什么？” 研究 DNA 序列本身及其变异。	序列组装 (Assembly)、变异检测 (Variant Calling, SNPs/Indels)、系统发育树构建。
转录组学 (Transcriptomics)	“我在做什么？” 研究基因的表达水平。	差异表达分析 (Differential Expression, DE)、单细胞测序聚类 (scRNA-seq)、通路富集分析 (GO/KEGG)。
蛋白质组学 (Proteomics)	“我长什么样？” 研究蛋白的结构与功能。	蛋白质结构预测 (AlphaFold)、分子对接 (Docking)、蛋白质相互作用网络 (PPI)。

从数据到临床：NGS 分析流程

在临床诊断（如癌症、遗传病）中，生物信息学主要负责处理高通量测序（NGS）产生的原始数据。

原始数据 (Raw Data)： 测序仪产出的 .fastq 文件，包含数亿条短序列（Reads）及其质量评分（Quality Score）。
比对 (Alignment/Mapping)： 将短序列像“拼图”一样比对到人类参考基因组（Reference Genome, 如 hg38）上，生成 .bam 文件。
变异检出 (Variant Calling)： 利用算法找出样本与参考基因组不同的位点，生成 .vcf 文件（Variant Call Format）。
注释与解读 (Annotation)： 利用数据库（如 ClinVar, gnomAD）标记这些变异的临床意义（良性/致病），最终生成临床报告。

       关键相关概念 [Key Concepts]

1. Pipeline (分析流程)： 生信分析通常不是单一软件完成的，而是将多个工具串联起来（如 QC -> Trim -> Map -> Call），形成自动化的工作流（Workflow），常用工具如 Nextflow, Snakemake。

2. Algorithm (算法)： 生物信息学的核心。例如 动态规划（Dynamic Programming）用于序列比对，隐马尔可夫模型（HMM）用于基因预测，深度学习（Deep Learning）用于蛋白结构预测。

3. Databases (数据库)： 生信的“粮仓”。包括一级数据库（存储原始数据，如 GenBank, SRA）和二级数据库（存储整理后的知识，如 UniProt, KEGG, OMIM）。

       学术参考文献 [Academic Review]

[1] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990). Basic local alignment search tool (BLAST). J Mol Biol.
[点评]：史上引用率最高的生物学论文之一。BLAST 算法让海量序列的快速比对成为可能，是生物信息学的奠基工具。

[2] Lander ES, et al. (2001). Initial sequencing and analysis of the human genome. Nature.
[点评]：人类基因组计划（HGP）草图发表。标志着生物学正式进入组学（Omics）和大数据时代。

[3] Jumper J, Evans R, Pritzel A, et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature.
[点评]：人工智能的胜利。解决了困扰生物学 50 年的“蛋白折叠问题”，证明了 AI 在生物信息学中的统治级潜力。

           计算生物学 · 知识图谱

上级分类	生物学 • 计算机科学 • 交叉学科
技术驱动	NGS (测序) • AI (深度学习) • 云计算
应用场景	药物研发 • 遗传咨询 • 进化分析

匿名

搜索

生物信息学

名字空间

更多

页面选项

三大核心领域 (The Big Three)

从数据到临床：NGS 分析流程

导航

导航

功能菜单

Wiki工具

Wiki工具

匿名

搜索

生物信息学

三大核心领域 (The Big Three)

从数据到临床：NGS 分析流程

导航

Wiki工具

页面工具