医学知识图谱
Medical Knowledge Graph(医学知识图谱,简称 MKG)是一种用图模型(Graph Model)来描述医疗领域概念及其相互关系的语义网络。它将枯燥的医学文本(如教科书、指南、病历)转化为计算机可理解的“实体-关系-实体”(Entity-Relation-Entity)三元组结构。在 人工智能医生 的构建中,医学知识图谱扮演着“大脑”的角色。与基于统计概率的大语言模型(LLM)不同,知识图谱提供确定的、可追溯的逻辑事实,是实现高精度临床决策支持系统(CDSS)和解决医疗AI幻觉(Hallucination)问题的关键技术基石。
核心架构:从 Schema 到 数据
构建一个医学知识图谱通常包含两个层面:
1. 模式层 (Schema Layer): 相当于图谱的“骨架”或“本体”(Ontology)。定义了数据规则,例如:“疾病”可以“有症状”,“药物”可以“治疗疾病”。
2. 数据层 (Data Layer): 填充具体的医学事实。例如:(肺癌) --[有症状]--> (咯血);(奥希替尼) --[治疗]--> (EGFR突变非小细胞肺癌)。
横向测评:通用 vs 专用知识库
在医学领域,通用的知识图谱往往无法满足临床精度要求,因此产生了专业的医学本体和图谱。
| 知识库 | 维护者 | 特点 | 在AI中的作用 |
|---|---|---|---|
| UMLS | NLM (美国国立医学图书馆) | “超级字典”。 | 整合了 SNOMED, ICD, MeSH 等数百万个概念。是构建图谱时实体对齐的金标准。 |
| SNOMED CT | SNOMED International | “临床术语”。 逻辑性最强,支持推理。例如它定义了“病毒性肺炎”必须由“病毒”引起且发生在“肺部”。 | 电子病历(EMR)的底层编码,支持精准的临床信息检索。 |
| CMeKG | 国内学术界/产业界 | “中文图谱”。 针对中文医学语境构建,整合了中文药品说明书、指南和百科数据。 | 国内智慧医疗系统的核心。解决了中文医学术语歧义的问题。 |
| PharmGKB | NIH | “药物基因组”。 专注于基因-药物相互作用。 | 精准医疗 CDSS 的核心,用于提示药物不良反应风险。 |
前沿技术:GraphRAG (图谱增强检索)
Solving the Hallucination Problem (解决幻觉)
大语言模型(LLM)擅长“说话”,但容易“胡说”。GraphRAG 技术通过将 LLM 与知识图谱结合:
1. 检索: 当用户提问时,先在知识图谱中检索相关的精准事实(子图)。
2. 增强: 将这些事实作为“提示词”喂给 LLM。
3. 生成: LLM 基于事实生成回答。
这使得“智慧医生”既能像人一样流畅对话,又能像教科书一样准确无误。
Knowledge Fusion (知识融合)
构建过程中最大的挑战是多源异构数据的融合。例如,指南里叫“非小细胞肺癌”,病历里写“NSCLC”,百科里写“肺鳞癌”。图谱通过实体对齐(Entity Alignment)技术,将这些不同的表述映射到同一个节点 ID 上,确保 AI 理解它们是同一回事。
关键参考文献
[1] Rotmensch M, et al. (2017). Learning a health knowledge graph from electronic medical records. Scientific Reports.
[构建方法]:展示了如何利用统计方法从海量电子病历中自动构建“疾病-症状”概率图谱,被视为 Google Health KG 的雏形之一。
[2] Zhang Y, et al. (2020). CMeKG: A Chinese Medical Knowledge Graph. ACL.
[中文资源]:介绍了 CMeKG 的构建过程,是目前中文医疗 AI 领域引用率极高的基准数据集。