Advertisement

利用决策树分析乳腺癌患者存活

阅读量:

1.背景

在乳腺腺上皮组织中生长的恶性肿瘤即为乳腺癌。约99%的乳腺癌病例发生在女性身上,在男性中的发病率仅为1%。尽管如此,在整个身体中它并不是维持生命活动的关键器官;即使原发性于乳房内(即原位)的情况下也不会致命;然而由于这些癌症细胞失去了正常的特性——它们之间的连接变得松散——所以容易脱落下来。当这些癌症细胞脱落时,这些游离状态下的癌症细胞可经血液循环或淋巴系统扩散至全身各处,并最终导致远处转移可能危及生命

经历了上世纪七十年代末至八十年代初的持续攀升后目前仍呈现稳步增长态势

在乳腺癌的诊疗过程中

2.问题描述

如果利用患者年龄,分子标记等信息预测其三年生存率?

3.数据集

该研究集合涵盖了1981份病人的数据信息,并整合了多个研究组的研究成果数据。我们主要采用了哪些病理指标的具体数值?这些指标的具体数值见下表

X[0] X[1] X[2] X[3] X[4] X[5] X[6] X[7]
年龄 肿瘤大小 转移淋巴结数目 分期 ER_IHC_status ER水平 PR水平 HER2水平

在8个变量中,在分子标记类的数据仅有0和1两个取值状态,并分别代表阴性和阳性。从每个病人角度来看,在暂时不考虑这些关于治疗方案的数据的前提下,“尽管这些数据对判断患者的存活率具有重要意义”。在后续的研究中,在考察不同治疗方案对不同生理特性的患者治疗效果时将纳入这部分数据。

4.建模结果

在这里采用决策树(Decision Tree)作为模型架构,在特征筛选上采用了基尼系数这一指标,在模型训练过程中将原始数据经过了标准化处理以确保其适用性

此决策树从根节点开始执行判断流程。该流程通过设置一系列判断依据(见方框中的第一条说明),根据结果指引至左分支或右分支继续分析。当所有条件均已满足后将最终导向特定叶子节点。每个叶子节点内的方括号标注显示存活状态(标记为0)和死亡状态(标记为1)的具体数量。举例而言,在本案例中我们有一名患者的年龄达到了80岁:我们首先评估是否符合根节点设定的所有条件——即患者年龄是否小于等于71.2岁?经核实结果不符合条件因而转向当前层右侧子节点。随后系统会询问该患者肿瘤体积是否小于等于85.7岁?结果符合条件于是向左子分支深入分析:此时仍需确认肿瘤大小是否超过24.5单位长度?如果超出范围则会导向右侧子节点——这是一个叶子型态且包含71个存活样本与162个死亡样本:据此推断该患者的生存几率约为30.5%

从这棵树中我们能够获取大量有价值的信息。例如年龄是一个高度重要的因素。对于年龄超过71.2岁的患者群体而言,整体生存率相对较低,在大多数情况下不超过36%。而当患者的年龄超过85.7岁时其生存率进一步降低。这一现象可能与随着年齡增长自然死亡概率的增加有关。对于年长的患者来说,在肿瘤大小方面存在一定的关联。在年轻患者的群体中(即年龄低于71.2岁),已转移淋巴结的数量被认为是最重要的统计因素而在未转移组中的分期情况则更为关键。此外肿瘤的最大尺寸也是影响存活的关键指标之一综合考虑治疗方案等因素(作为一个近似模型)我们认为最重要的影响因素仍然是患者的分期阶段以及肿瘤的大小等特征

注:本文仅供研究交流,文中任何信息不能利用于诊疗临床。

全部评论 (0)

还没有任何评论哟~