乳腺癌诊断分析——基于聚类分析实现
一、研究背景
乳腺癌可被归类为恶性肿瘤的一种,在进行早期诊断后应尽快切除病变部位的组织。此外,在手术后还需采用化疗与放疗等辅助治疗手段以减缓癌细胞的蔓延以及阻止其生长。
二、研究目的
探究乳腺癌患者的患病特征
采用聚类分析手段实现分类目标
基于上述聚类结果提出优化方案
三、数据来源
在机器学习(sklearn)库中 Wisconsin breast cancer dataset 包括了乳腺癌患者肿瘤特征的测量数据
[breast_cancer — scikit-learn

The official documentation for the scikit-learn library provides detailed information on the load_breast_cancer dataset module, which is essential for understanding how to utilize this dataset effectively within machine learning workflows.
The official documentation for the scikit-learn library provides detailed information on the load_breast_cancer dataset module, which is essential for understanding how to utilize this dataset effectively within machine learning workflows.
四、实验仪器
Windows 11,SPSS,PyCharm Professional,R,Jupyter Notebook
五、数据集介绍

5.1 数据来源
本实验数据基于机器学习领域的美国威斯康星州乳腺癌数据集,包括569名患有乳腺癌的患者群体
5.2 选择的病理特征
- D值 2. T特征 3. C数据 4. A数值 5. S程度 6. E程度 7. G程度 8. I性质 9. F程度
六、系统聚类法
6.1 近似值矩阵

在本实验中,SPSS被用于执行一系列数据处理步骤。具体而言,在计算样本间的相似性程度时,默认采用了欧氏平方距离这一指标。由此可知,在此过程中两个样本之间数值越接近,则表示它们之间的差异程度越大。然而,在计算类别间的相似性时,默认采用了最短距离法这一策略,在SPSS软件中对应的操作为最近邻元素分类法。根据表1的数据结果可以看出:平均周长指标与平均半径指标之间的最短距离最小,并且这种现象最先出现在第一类内部
6.2 集中趋势

该表格展示了SPSS程序生成的聚类系数数据,并在下文中通过Python软件绘制了对应的图形显示在下文
6.3 聚合系数与谱系图

根据图1的结果,在分类数目超过4的情况下(即超过4的情况),系统聚类分析中变量变化趋势呈现出趋于稳定的趋势(即趋向稳定)。这表明该方法在分类数目等于4时达到最佳效果(即最优效果)。通过应用SPSS软件进行系统聚类分析后成功生成了谱系图(如图2所示)。


通过谱系图得出四类的特征分别为:
第一类包括以下各项:平均半径、周长、面积、凹度、对称性和紧凑度等参数。这些指标全面描述了乳房表面特征并能有效识别乳腺癌前期症状;
第二类为平均平滑度参数,在识别乳腺癌初期病变方面表现突出;
第三类是平均分形维度参数,在评估乳房内部分子结构变化方面具有重要价值;
最后一类是平均纹理参数,在分析乳房组织纹理模式及其与癌症的关系方面意义重大。
七、总结与建议
7.1 总结
基于聚类分析的结果归纳得出乳腺癌的四大类别病理指标:如平均半径、平均周长等。
根据病人的这四大类病理指标进行检测有助于初步判别乳腺癌。
在数据不足或缺失的情况下能够帮助分析基于这四大类特征的乳腺癌风险。
7.2 建议
1、建立良好的生活方式,调整好生活节奏,保持心情舒畅。
2、坚持体育锻炼,积极参加社交活动,避免和减少精神、心理紧张因素,保持心态平和。
3、养成良好的饮食习惯。
- 婴幼儿时期注意营养均衡,提倡母乳喂养。
- 儿童发育期减少摄入过量的高蛋白和低纤维饮食。
- 青春期不要大量摄入脂肪和动物蛋白,加强身体锻炼。
- 绝经后控制总热量的摄入,避免肥胖。
- 平时养成不过量摄入肉类、煎蛋、黄油、奶酪、甜食等饮食习惯,少食腌、熏、炸、烤食品,增加食用新鲜蔬菜、水果、维生素、胡萝卜素、橄榄油、鱼、豆类制品等。
4、积极治疗乳腺疾病。
5、不乱用外源性雌激素。
6、不长期过量饮酒。
