Advertisement

利用医学Twitter进行病理图像分析的视觉-语言基础模型| 文献速递-视觉通用模型与疾病诊断

阅读量:

Title

题目

该研究开发了一种基于视觉语言的底层模型用于病理图像分析,并通过医疗Twitter作为数据来源

利用医学Twitter进行病理图像分析的视觉-语言基础模型

01

文献速递介绍

由于缺乏公开可用的医学图像标注技术而成为计算科学研究和技术教育创新的主要障碍。与此同时,在医学Twitter等公共论坛上活跃的众多医生分享了许多无标识化图像以及丰富的知识储备。基于此背景我们借助这些开源平台开发了OpenPath项目该系统是一个包含208,414张病理切片与其自然语言描述配对的大规模数据集。为了展现该资源的价值我们开发了一个名为PLIP(Pathology-Language Image Pretraining)的多模态预训练模型它具备同时理解图像内容与文本能力并基于OpenPath进行了系统的训练。经过评估PLIP在四个基准数据集上的零样本分类任务中表现优异其F1分数范围达到0.565–0.832明显优于此前同类路径-语言预训练模型的表现(F1分数为0.030–0.481)。在此基础上我们在该嵌入空间构建了一个简单的监督学习分类器相对于使用其他监督模型嵌入方法其F1分数提高了约2.5%。此外该系统还支持通过多模态检索功能实现病例相似性搜索从而显著提升了医疗知识共享效率。我们的研究表明开放获取的医学信息是一种极具价值的战略资源能够有效促进医疗人工智能技术的发展从而辅助提高诊断准确性促进知识传播并推动医学教育发展

Method

方法

Description of the OpenPath dataset

根据发布政策以及Twitter等包括LAION在内的其他实体的相关规定,在数据集中提供的所有信息均与原始数据源相关联。具体而言,从Twitter收集的数据采用Tweet ID的形式发布;而来自LAION的数据则通过指向图像URL的形式发布。如欲了解使用是否符合规定,请参考原始来源。

数据集描述

根据发布政策规定可知:所有数据均与原始来源直接关联。具体而言:通过推文ID的方式提供Twitter收集到的数据;而通过图像URL的形式提供LAION获取的数据。建议有兴趣的研究者参考原始来源以确保合规使用这些数据资源。

Results

结果

Creating OpenPath from Twitter and other public sources

The USCAP and Pathology Hashtag Ontology projects (projects) have been established to provide guidance on Twitter pathology-specific hashtags. These projects (initiatives) were designed to facilitate efficient retrieval of relevant tweets for each pathology subspecialty. We employed these specific tags (hashtags) to collect data from Twitter posts between March 21, 2006, and November 15, 2022 (as shown in Figure 1a). This effort resulted in the creation of OpenPath, a comprehensive public pathology dataset featuring detailed image descriptions in natural language. Extensive data was gathered by compiling information from Extended Data Table 1. The research team adhered to Twitter’s policies and ethical guidelines while collecting data. To ensure dataset quality, rigorous inclusion and exclusion criteria were applied: retweets and sensitive tweets were excluded; non-pathology images were removed; additional text cleaning procedures were implemented (see Figure 1a for details). The final OpenPath dataset consists of three main components: approximately one hundred sixteen thousand five hundred four pairs of image and text from Twitter posts across all pathology subspecialty-specific hashtags; nearly sixty thousand nine hundred sixty-nine pairs from associated replies that received the most likes; and thirty-two thousand forty-one additional pairs scraped from online sources such as the Internet and the LAION database. Captions in OpenPath typically consisted of seventeen words on average (as shown in Figure 1d), providing concise descriptions of medical conditions depicted in corresponding images. For a detailed explanation of dataset extraction methods and exclusion criteria, please refer to Methods section. Extended Data Figures 1a and Methods provide further insights into the inclusion-exclusion process.

该项目提供了32个特定的Twitter病理学亚专业标签,并邀请研究者使用这些标签进行信息共享与知识获取。我们通过系统化的策略收集了自2006年3月21日(第一条Twitter帖子发布的时间)至当前为止的所有相关推文信息,并在此基础上构建了一个包含最多图像自然语言描述的大型公共 pathlib 学习与应用资源(OpenPath)。每个标签的具体定义及其应用细节均可在附录表1中找到详尽说明。在执行这一研究计划的过程中, 我们严格遵循了 Twitter 以及相关实体的信息获取规范与操作准则, 包括对转发信息、敏感推文以及非 pathology 相关图像的内容进行筛选排除, 并对所有采集到的数据进行多级质量把关, 确保最终输出结果的真实可靠性和准确性。最终所得 OpenPath 数据集包括以下三个组成部分:第一组为基于 32 个专门领域的 pathology 标签产生的 116,504 套图像-文本配对;第二组为对应推文所引发的相关回复中的最优选配对共 59,869 套;第三组则来源于 Internet 和 LAION 数据库中的额外补充配对共计 32,041 套图像-文本对。通过对 OpenPath 标题段落的具体分析发现, 每个标题段平均每条记录包含约 17 个关键词用于精准描述所涉医学影像特征信息

Figure

图片

_Fig. 1 | Overview of the study. a, 流程图展示了从Twitter医疗数据集中获取数据的过程。b, 概述了OpenPath数据集的结构。c, 不同Twitter标签下可获得的图像-文本配对数量统计(按字母顺序排列)。其中回复是指那些在Twitter帖子中获得点赞数量最高的内容(如有适用)。d, 图像-文本数据集中每句话所含单词数的概率密度分布曲线。e, 通过对比学习方法训练PLIP模型的过程描述了利用配对图像-文本数据集进行学习的情况。f, 详细展示了对比学习训练过程的图形演示

图1 | 研究概览。a. 该流程图展示了从医学Twitter获取数据的方法;b. 本研究采用了OpenPath数据集作为基础;c. 在所有推文和回文中,“图像-文本对”的数量(按字母顺序排列);其中,在所有推文和回文中;d. 该图表展示了OpenPath数据集中各句子平均词数密度的变化情况;e. 使用对比学习基于成对的图像-文本数据集训练PLIP模型的过程;f. 图形化展示了对比学习在PLIP模型训练过程中的应用。

图片

图2显示PLIP通过零剪切转移学习预测新类别。a. 图文说明了零剪切分类的过程:输入图像与候选文本计算余弦相似度后选取相似度最高的作为分类输出。b. 包括四个外部验证集的数据集:Kather肠组织学数据集包含九种组织类型;PanNuke数据集涵盖良性和恶性组织;DigestPath数据集同样涵盖两种组织类型;WSSS4LUAD数据集则涉及肿瘤与正常组织两类别。c. 零剪切性能评估结果图中展示了各数据集的表现情况(Kather肠组织学数据集基于九类零剪切学习评估均值计算得出),其余三个数据集则基于二分类零剪切学习评估均值进行计算(置信区间95%)。d. Kather肠组织学数据集上的混淆矩阵展示了真实标签与预测标签之间的对应关系(行表示真实类别、列表示预测类别)。e. 在各个器官类型上进行了零剪切评估实验的结果展示

图2展示了通过零样本迁移学习实现对新类别的预测能力。a部分展示了一个基于零样本分类的图形说明。该分类过程由与输入图像余弦相似度最高的一组候选文本来决定。b部分列出了四个外部验证数据集:Kather结肠数据集包含九种组织类型、PanNuke数据集涵盖良性和恶性组织、DigestPath数据集同样涉及这两种组织类型,并且WSSS4LUAD数据集则分为肿瘤和正常组织两类。c部分对四个数据集进行了基于加权F1分数的零样本性能评估分析。请注意,在Kather结肠数据分析中采用了九类零样本学习评估方式,在其他三个集合上则基于二分类任务进行评估。d部分展示了针对Kather结肠癌细胞系构建的混淆矩阵。e部分探讨了在各个器官类型内针对PanNuke外泌体集合展开的数据验证工作

图片

Fig. 3 | Image embedding analysis and linear probing results. a, Image embeddings generated from the PLIP model in the Kather colon dataset. b, Image embeddings generated from the PLIP model in the PanNuke dataset. c, Image embeddings generated from the PLIP model in the DigestPath dataset. d, Image embeddings generated from the PLIP model in the WSSS4LUAD dataset. e, Graphical illustration of linear probing transfer learning. ‘Frozen’ means that the loss from the linear classifier will not be used to update the parameters of the image encoder. f*, F1 score in testing sets with the mean (± s.d.) from five repeated experiments with different random seeds. The ‘Average’ column shows the averaged performances across the four datasets. P values were calculated using a two-sided Student’s t-test and are presented in the bottom two rows.

图3展示了基于PLIP模型生成的不同数据集上的图像嵌入分析及线性探测结果。具体而言,在Kather结肠数据集中观察到PLIP模型生成的图像嵌入表现;PanNuke数据集则呈现类似的特征;DigestPath数据集提供了另一种视角;WSSS4LUAD数据集则展现了不同的表现模式。此外,在线性分类器迁移学习过程中进行了图形化展示:'Frozen'标记表示并未更新图像编码器参数的情况;而'Average'列则汇总了四个数据集下的平均性能表现;通过双侧t检验计算得到的P值分别标注于表格底部两行区域

图片

_Fig. 4 | 图像从文本检索在病理学图像中的应用. a, 路径学图像从文本输入中检索的图形说明. b, 四个验证数据集中句子单词数量分布情况的密度图. c, 对于Twitter验证集的数据集描述及一个示例文本注释. d, 对PathPedia、PubMed以及书籍数据集的描述及示例文本注释. e, 各验证数据集中的图像检索性能评估情况. f, 在病理细分领域特定标签下的Recall@10表现比较. g**, 在病理细分领域特定标签下与PLIP模型相比CLIP及随机变量的相关性分析(Spearman相关系数)及其95%置信区间(CI)展示.

图4展示了病理图像从文本到图像检索的关键分析过程。具体而言:a) 基于文本输入检索病理图像的具体图形说明;b) 计算并绘制针对四个不同验证数据集计算得到的每个句子平均词数密度分布图;c) 详细描述了Twitter验证数据集及其典型示例文本标题;d) 清晰描述了PathPedia、PubMed和Books三个数据集,并给出了相应的示例文本标题;e) 评估了不同验证数据集上的图像检索性能;f) 分析了各个病理学细分领域(如心血管疾病或肿瘤学)下的Recall@10指标在文本到图像检索任务中的表现;g) 比较PLIP模型与CLIP及随机模型时,在候选数量与Recall@10的变化之间计算出Spearman相关系数;同时使用灰色或紫色标记回归估计值,并标注95%置信区间。

图片

Fig. 5 | 图表说明病理图像检索过程及其在Twitter验证集上的应用效果分析。a, 图像检索过程的视觉描绘;b, Twitter验证集上图像检索技术分析;c, 图像检索模型在Twitter验证集上的性能指标;d, Kather肠癌数据集上的检索性能评估;e, PanNuke数据集上的图像检索性能测定;f, KIMIA Path24C数据集上的图像检索模型分析;g, 文本到图像检索实例展示;h, 典型图像检索案例(包含细胞分裂图像)

图5展示了病理图像的图像到图像检索过程。a. 图形化的展示方式:通过多维度的数据可视化技术直观呈现路径生理特征与影像特征之间的关联关系。b. 基于Twitter验证数据集展开性能评估的具体方法及实验结果分析。c. 在Twitter验证数据集上的量化分析结果及其与随机模型比较的效果曲线展示。d. Kather结肠癌组织学数据库上的实验结果对比分析及性能指标的具体数值体现。e. PanNuke数据库上的实验结果对比研究及其实现技术路径优化情况说明。f. KIMIA Path24C数据库上的实验结果对比及其与现有方法差异性分析内容展示。g. 附带详细的文本与路径信息匹配案例说明及相似度计算流程描述补充信息。h. 包括细胞分裂过程的具体例子作为辅助说明

全部评论 (0)

还没有任何评论哟~