利用深度学习辅助皮肤病诊断
文 / Yuan Liu, SE & Peggy Bui, PM, Google Health

经估算数据显示
现在, 非皮肤科医生能够利用参考书、在线资源以及咨询同事等方式来提高诊断准确性。为了实现这一目标, 研究人员已经开发出了多种机器学习工具。早期的研究重点主要集中在皮肤癌的早期筛查上, 尤其是判断病变性质以及确定病变类型, 如黑色素瘤等实体瘤。然而, 在过去的统计数据表明, 达到 90% 的皮肤问题并非恶性疾病, 解决这类常见问题同样对全球皮肤病治疗具有重要意义
如文中所述,在《用于皮肤病鉴别诊断的人工智能系统》(A Deep Learning System for Differential Diagnosis of Skin Diseases)一文中
DLS 设计
临床医师常会遇到病情不确定的情况,在诊断上存在一定的模糊性。例如,在某些患者的皮疹案例中可能会出现淤积性皮炎与蜂窝组织炎两种情况甚至兼而有之的现象?在常规诊疗中并非仅仅局限于单一的结论判定,在实际操作中通常会提供一个鉴别诊断列表来综合考虑所有可能的相关皮肤病类别。这些分类有助于制定系统的检查方案(包括实验室检测、影像扫描等),并最终明确具体的病理定位与治疗方案。同样地,在人工智能辅助诊疗中也能实现类似的功能,在这种情况下能够根据患者的皮肤症状快速生成相应的疾病分类建议从而实现对患者的精准分诊与治疗过程
为了实现这一预测目标,DLS将处理多种输入数据。这些输入数据不仅包括具有皮肤异常的临床图像,还可能包含单张或多张这样的图像。此外,这些临床图像将伴随着高达45类的辅助信息(例如病历中的详细描述)。在分析每一种病例时,DLS采用了Inception-v4神经网络架构,并结合经过特征转换的辅助信息来处理多张图像。研究过程中,DLS利用了来自初级医疗诊所但随后转至远程皮肤病服务机构的数据集中的身份不明病例(总数约为17,777例)。这些案例主要涉及疾病识别问题。在模型训练过程中,DLS采用了约5万个由40名皮肤科医生提供的鉴别诊断
为了评估 DLS 的准确性,我们将其与经过严格认证的皮肤科专家(即美国职业认证的皮肤科医生)提供的金标准诊断结果进行比较。在验证集 A 中共有 3756 个病例由皮肤科专家进行了鉴别诊断,并通过投票过程汇总以确定真实值标签。相比 Skinologist 提供的专业意见,DLS 列出的所有皮肤病在Top-1分类上达到了71%正确率,并在Top-3 多项分类中获得了93%正确率

DLS 以及基于三名获得美国职业认证的皮肤科医生对验证集中的各个病例进行投票统计以确定参考标准(真实值)的示意图
与专业评估的比较
在本研究中,我们还就验证数据集 A 的子集(标记为"验证集 B"),进行了对比分析,分别考察了深度学习算法 DLS 以及三位临床医疗技术人员(皮肤科医生、初级护理医生(PCP)和执业护士(NP))的准确性.这些临床医疗技术人员均通过随机抽样方法被选取,其背景经历与接受的专业训练存在显著差异,反映了多样化的专业技能与知识储备.
临床医师提供的鉴别诊断表通常仅包含三项。因此,在验证过程中, 我们仅将 DLS 的前三个预测项与临床专家进行对比分析. 在验证集 B 上,DLS 实现了 90% 的 Top-3 准确率. 相较于单个专家团队(每组6位专家), 其性能水平相当于皮肤科专家团队. 显著优于初级护理人员(PCP)以及 Practice Nurses (NP) 达到了更高的水平. 高Top-3 准确率表明, DLS 能够辅助临床医师(包括皮肤科医师)考虑超出其鉴别列表的可能性, 进而提升诊断准确性并改善患者病情管理.

DLS 在鉴别诊断上的 Top-1 准确率明显优于 PCP 和 NP,并相媲美皮肤科医生的水平。研究显示 DLS 的 Top-3 准确率有显著提升,在绝大多数病例中 DLS 的鉴别诊断表格都包含正确的答案
评估人口统计表现
在皮肤病学领域中, 皮肤类型的划分具有重要地位. 在临床实践中, 正确进行皮肤的视诊评估对于提高诊断准确性至关重要. 为了减少潜在的分类偏见, 我们采用了Fitzpatrick分类法来分析Dermoscopy Light Scattering (DLS)的表现. 该评价量表涵盖I型至VI型共六种分类: I型特征为"永远苍白色, 总是受紫外线照射而不变黑"; VI型则表现为"深棕色且始终不被晒黑".
为了确保基于充分案例得出令人信服的结论, 我们主要选取至少代表5%的数据量级 skin types — Fitzpatrick types II至IV. 针对这些类别, DLS 的分类精度表现相对一致 (其Top-1分类精度介于69%-72%, 而Top-3精度则达到91%-94%). 不容忽视的是, DLS 在患者亚组中的诊断准确性依然出色, 并且根据其他人口统计数据 (包括年龄、性别以及种族/民族特征), 该群体占数据集显著比例 (最低达5%). 在进一步定性分析中, 我们借助显著性技术评估结果, 得出明确结论: DLS 确实在关注关键异常状况而非肤色特征.

在左图中展示的是脱发病例的典型病例;对于非专科医生而言,在确诊方面存在明显的局限性;因此无法确定合适的治疗方法。在右图中展示的是DLS系统识别的重要区域——被突出显示的绿色区域,并基于此来进行预测。中间部分展示的是两种图形结合后的结果;通过分析可以看出,DLS系统主要关注头发脱落部位,并未对前额皮肤的颜色变化作出过多解读。
合并多种数据类型
我们还研究了不同类型的输入数据对 DLS 性能的影响。
像利用多视角成像技术有助于远程皮肤科专家更加精准地识别和判断皮肤病变情况一样,在DLS算法中成像数量越多其识别效率也会随之提升。当缺乏必要的辅助信息(如病历记录)时基于仅凭影像模型构建出来的系统不仅难以实现预期目标还可能因为缺失关键信息而导致预测精度下降
在病历信息不足的情况下可能存在这一准确性差异,在仅依靠图像训练DLS时可能无法完全解决这一问题。然而研究表明,在提供一些皮肤状况相关问题后将显著提升DLS的准确性水平。

当样本数量增加(蓝线代表新增样本)并包含元数据(通过对比蓝线与红线展示变化)时,DLS 的准确率将得到显著提升。在仅依靠图像进行训练的情况下,则当前 DLS(绿线对应当前模型表现)的准确率只会出现微小幅度的增长
未来工作和应用
尽管这些研究结果前景可期但仍需解决多项未完成工作。首先基于实际应用反馈我们发现数据集中对黑色素瘤等皮肤癌案例的数量明显不足这对提高癌症检测系统准确率带来了直接制约同时标记为皮肤癌但未经活检证实的数据也限制了真实值质量其次尽管我们涵盖了Fitzpatrick不同皮肤类型但某些类型样本数量偏少这对后续建模分析影响较大最后所用验证数据集均来自同一远程皮肤病学机构虽然覆盖了两个州17个初级护理机构但在更多区域增加病例验证同样重要
我们坚信,在训练集与验证集中补充更多经活检确认的确诊皮肤癌样本及引入其他临床中心更为典型的Fitzpatrick型案例将有助于缓解这一问题
成功发挥深度学习在辅助皮肤病鉴别诊断方面的作用无疑是一剂强心针,这使得我们更加坚信此类工具在临床医生手中的巨大潜力。例如,基于DLS的技术可以帮助实现病例分类以便合理安排临床护理工作的优先级,有助于提高非皮肤科医师对皮肤病诊断的准确性,从而增加接诊量。尽管目前道路依然艰巨,但展望未来致力于开发这类系统,为临床医师提供更多实用功能,我们满怀信心与期待。如需咨询合作事宜,请访问我们的邮箱地址:dermatology-research@google.com
致谢
这项研究是由多学科团队共同努力完成的成果。这项研究的主要参与者包括Yuan Liu, Ayush Jain, Clara Eng, David H. Way, Kang Lee, Peggy Bui, Kimberly Kanada, Guilherme de Oliveira Marinho, Jessica Gallegos, Sara Gabriele, Vishakha Gupta, Nalini Singh, Vivek Natarajan, Rainer Hofmann-Wellenhof, Greg S. Corrad...
如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:
- 37% 的患者受多种皮肤病困扰https://www.ncbi.nlm.nih.gov/pubmed/11464187
 
超过50%的患者经非皮肤科医生进行治疗https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/1108675
- 
诊断准确率:皮肤科医生与全科医生https://www.ncbi.nlm.nih.gov/pubmed/16197420
 - 
病变是否为黑色素瘤https://academic.oup.com/annonc/article/29/8/1836/5004443
 - 
常见皮肤病 - 90%的皮肤问题非恶性疾病https://www.ncbi.nlm.nih.gov/pubmed/25566569
 - 
用于皮肤病鉴别诊断的深度学习系统https://arxiv.org/abs/1909.05382
 - 
Inception-v4 神经网络架构https://arxiv.org/abs/1602.07261
 - 
Fitzpatrick 皮肤类型https://en.wikipedia.org/wiki/Fitzpatrick_scale
 
更多 AI 相关阅读:
