MeSH
来自医学百科
| 医学主题词 Medical Subject Headings | |
|---|---|
| [Image of MeSH tree structure example] | |
| 英文缩写 | MeSH |
| 维护机构 | NIH 下属的 NLM |
| 类型 |
受控词表 (Controlled Vocabulary) 叙词表 (Thesaurus) |
| 更新频率 | 每年更新 (通常在年底) |
| 结构特征 |
多层级树状结构 (Poly-hierarchical) |
| 核心用途 |
MEDLINE/PubMed 索引、 AI 语义检索 |
| 词条数量 | > 30,000 个主词 (Descriptors) |
医学主题词(英文名:Medical Subject Headings,简称MeSH),是一套由美国国家医学图书馆(NLM)编制和维护的全面受控词表(Controlled Vocabulary)。
它是生物医学信息的“通用语言”。在 MEDLINE 数据库中,每一篇文献都会被人工打上 10-15 个 MeSH 标签。这使得检索者(或 AI 算法)可以通过标准的医学概念来查找信息,而不是依赖容易产生歧义的关键词(Keywords)。[1]
核心结构
MeSH 不是一个扁平的列表,而是一个巨大的、多层级的“树”:
1. 主题词 (Descriptors)
这是 MeSH 的核心,代表一个概念。
- 例如:"Pancreatic Neoplasms"(胰腺肿瘤)。
- 同义词映射:无论用户输入 "Cancer of Pancreas"、"Pancreas Cancer" 还是 "Pancreatic Tumor",MeSH 都会将其映射到标准词 "Pancreatic Neoplasms"。这对 AI 的语义归一化至关重要。
2. 副主题词 (Subheadings / Qualifiers)
这是 MeSH 最强大的地方,用于描述主题词的“特定方面”。
- 形式:`主题词/副主题词`
- 应用:
- /drug therapy (药物治疗):如 `Pancreatic Neoplasms/drug therapy`。
- /genetics (遗传学):如 `Pancreatic Neoplasms/genetics`。
- /adverse effects (副作用):如 `Gemcitabine/adverse effects`。
- 价值:您的 AI 可以通过解析副主题词,直接提取出“疾病-疗法”或“药物-副作用”的关系对。
3. 树状结构 (Tree Structure)
MeSH 具有“多重层级性”(Poly-hierarchy),一个词可以同时属于多个分支。
- 示例路径:
- 疾病 (C) $\to$ 消化系统疾病 (C06) $\to$ 胰腺疾病 (C06.689) $\to$ 胰腺肿瘤 (C06.689.667)
- 疾病 (C) $\to$ 肿瘤 (C04) $\to$ 内分泌腺肿瘤 (C04.588) $\to$ 胰腺肿瘤 (C04.588.635)
MeSH 对 AI 医疗的战略价值
1. 解决同义词问题 (Synonymy)
患者可能会说“肚子疼”,医生会写“腹痛”,论文里写“Abdominal Pain”。
- MeSH 将这些词全部链接到同一个 ID(D015746)。如果没有 MeSH,您的“智慧医生”可能无法理解这三个词在说同一件事。
2. 扩展检索 (Explosion)
利用 MeSH 的树状结构,可以实现“扩展检索”。
- 当用户搜索“消化系统肿瘤”时,AI 可以自动包含其下级的所有词(如“胃癌”、“肝癌”、“胰腺癌”),而不需要用户逐一输入。
3. 知识图谱构建 (KG Construction)
MeSH 本身就是一个高质量的本体库(Ontology)。
- 您可以直接利用 MeSH 的层级关系(Parent-Child)作为知识图谱的骨架(Schema),然后将从 PubMed 抓取的实体填充进去,快速构建垂直领域的医疗图谱。
补充概念记录 (SCR)
除了主词表,MeSH 还包含数十万个 Supplementary Concept Records (SCRs)。
- 这主要涵盖新药、化学物质和罕见病协议。
- 对于您的新药研发业务,关注 SCR 更新可以第一时间捕捉到全球最新出现的化合物信息。
参见
- MEDLINE
- PubMed
- 本体论 (信息科学)
- 自然语言处理 (NLP)
- 知识图谱
参考资料
引用错误:在<references>中以“MeSH_Browser”名字定义的<ref>标签没有在先前的文字中使用。