Advertisement

【论文笔记】MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training

阅读量:

MedKLIP: Language-Image Pre-Training Enhanced by Medical Knowledge

MedKLIP: Language-Image Pre-Training Enhanced by Medical Knowledge

目标

是指患者推断出具有特定疾病的可能性,由输入描述指示

用于预测的空间热图能够为这类疾病提供视觉提示,并且能够表现出高活性的像素点。

模型架构

视觉编码

我们采用标准的ResNet-50作为视觉骨干,取第4个剩余块的输出

知识增强语言编码

该模块的目标是通过结合医学领域知识从文本报告中提取有用信息。

Report Filtering

详细地说,在一个包含一组句子的报告中(记为 T = {s₁, s₂, …, s_M}),过滤器会分别处理每个句子。它通过从整个报告中生成多个三元组,并从中提取出大量实体(其中大多数属于疾病类别)、其所在的空间位置信息以及用于标记疾病存在的标签。

Entity Encoding 实体编码

利用医学目的知识库进行检索以获取详细视觉特征描述以替代实体如将'肺炎'替换为'肺部感染这一特定病理状态其主要影响集中在肺泡结构中的小空气腔区域这些区域可能呈现出密度不均匀分布并伴有胸腔积液区域这有助于提高对肺固结的诊断准确性尽管这一方法看似简单但它对于准确诊断依赖于可靠和开放词汇的医学实体具有重要意义因为它能够将复杂的医学实体分解为不同疾病共有的视觉属性从而促使模型能够深入理解相关的视觉证据

Discussion

首先,在医疗报告中信息通常较为浓缩,在描述图像时会特别指出异常现象及其位置。因此可以通过过滤器操作实现过滤以消除不必要的复杂性 从而保留大部分有用内容 同时确保数据完整性不受影响 这种方法特别适用于提高分析效率和减少误判风险。其次 实体一般为医学领域术语 只有具备医学背景的人群才能完全理解 为此可以通过优化视觉编码策略来显著提升模型对疾病视觉特征的理解能力 特别是对那些可以直接观察到的疾病 它们之间的关联关系可以通过共享特征建立起来 而对于那些难以直接观察到的疾病 它们的特征可能已经被隐含地定义并被推断出来 因为它们往往与其他相关疾病之间存在某种关联

Fusion Module

实体集 Q = {e₁, e₂,…, e_{|Q|}} ,位置集 P = {p₁, p₂,…, p_{|P|}} ,对于任意给定的图像 ,其视觉表示与实体集合将在融合模块中进行精确对齐 。该模块由多个 TransformerDecoder层并联构成 。我们以查询的方式对待实体集合 Q ,并将图像特征 V 视为解码器中的键值对 。融合模块输出随后会被两个线性MLP层进一步处理 :前一层用于推断实体的存在性 ,后一层生成嵌入信息以指示实体的空间位置

相较于基于现有技术的方法(即将报告与其整体图像对齐),所采用的Transformer解码器能够在分块层面计算文本与图像间的对应关系)。由此可知,在分割任务中使用该特征V更具优势(即其各层交叉注意力图均值可以直接应用于零样本推理过程)。

training

在训练过程中, 为了对每个实体的查询位置进行监督学习, 我们采用了对比学习方法, 并从位置集中随机抽取M个位置的编码作为样本进行计算.

其中 〈·, ·〉 表示两个向量的内积,I(·,·) 是随机索引采样函数。

实验

Pre-training Dataset

MIMIC-CXR v2 包含了超过 22.7 万组成对影像报告数据集的研究案例。这些案例源自不同扫描技术应用下的 65,379 名患者的独立检查。每个研究单元可能有一至两个影像(来自不同的扫描视角),共计生成了 377,110 张影像图表。

Datasets for Downstream Tasks 下游任务数据集

Chest X-ray examination, 14th generation; radiological evaluation of pneumonia; radiological assessment of pneumothorax; a COVID-specific chest X-ray study and rural-based COVID analysis; edema severity assessment

评价指标

AUC、F1 and ACC、Pointing Game、Dice and IOU、Precision and Recall

实验结果

零样本任务(zero shot)

借助医学知识的引入,在训练数据中难以观察到的复杂医学实体概念得以被有条理地表达出来,并且,在AUC指标上实现了从0.66至0.74之间的显著提升,在ACC指标上实现了从0.59至0.70之间的显著提升。

Fine-tuning

Conclusion

在本文中我们提出了一种新的医学知识增强方法用于改进VLP模型首先我们设计了一个报告筛选器用于提取具有更高监督信号的有价值医学实体通过最大限度地减少信息损失有效地简化了原本复杂难懂的临床报告结构然后我们将这些实体转换为详尽的医学描述并将其与文本编码器嵌入到系统中从而使得系统能够更好地理解和处理专业领域的复杂知识最后我们采用基于Transformer架构的方法来实现局部区域对齐在实验部分我们针对不同的评估设置测试了我们的方法在多个数据集上的表现实验结果表明我们的方法具备出色的知识整合能力以及扎实的地缘分析能力此外在微调优化过程中我们的方法仍然显著优于现有的先进算法证明了其独特的优势

全部评论 (0)

还没有任何评论哟~