决策树分类器的应用研究——乳腺癌诊断

阅读量：

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

复制代码

 %% 决策树分类器在乳腺癌诊断中的应用研究（2009a版本）

    
  
    
 %% 清空环境变量
    
 clear all
    
 clc
    
 warning off
    
  
    
 %% 导入数据
    
 load data.mat
    
 % 随机产生训练集/测试集
    
 a = randperm(569);
    
 Train = data(a(1:500),:);
    
 Test = data(a(501:end),:);
    
 % 训练数据
    
 P_train = Train(:,3:end);
    
 T_train = Train(:,2);
    
 % 测试数据
    
 P_test = Test(:,3:end);
    
 T_test = Test(:,2);
    
  
    
 %% 创建决策树分类器
    
 ctree = classregtree(P_train,T_train);
    
 % 查看决策树视图
    
 view(ctree);
    
  
    
 %% 仿真测试
    
 T_sim = eval(ctree,P_test);
    
  
    
 %% 结果分析
    
 count_B = length(find(T_train == 1));
    
 count_M = length(find(T_train == 2));
    
 rate_B = count_B / 500;
    
 rate_M = count_M / 500;
    
 total_B = length(find(data(:,2) == 1));
    
 total_M = length(find(data(:,2) == 2));
    
 number_B = length(find(T_test == 1));
    
 number_M = length(find(T_test == 2));
    
 number_B_sim = length(find(T_sim == 1 & T_test == 1));
    
 number_M_sim = length(find(T_sim == 2 & T_test == 2));
    
 disp(['病例总数：' num2str(569)...
    
       '  良性：' num2str(total_B)...
    
       '  恶性：' num2str(total_M)]);
    
 disp(['训练集病例总数：' num2str(500)...
    
       '  良性：' num2str(count_B)...
    
       '  恶性：' num2str(count_M)]);
    
 disp(['测试集病例总数：' num2str(69)...
    
       '  良性：' num2str(number_B)...
    
       '  恶性：' num2str(number_M)]);
    
 disp(['良性乳腺肿瘤确诊：' num2str(number_B_sim)...
    
       '  误诊：' num2str(number_B - number_B_sim)...
    
       '  确诊率p1=' num2str(number_B_sim/number_B*100) '%']);
    
 disp(['恶性乳腺肿瘤确诊：' num2str(number_M_sim)...
    
       '  误诊：' num2str(number_M - number_M_sim)...
    
       '  确诊率p2=' num2str(number_M_sim/number_M*100) '%']);

复制代码

 %% 决策树分类器在乳腺癌诊断中的应用研究（2012b版本）

    
  
    
 %% 清空环境变量
    
 clear all
    
 clc
    
 warning off
    
  
    
 %% 导入数据
    
 load data.mat
    
 % 随机产生训练集/测试集
    
 a = randperm(569);
    
 Train = data(a(1:500),:);
    
 Test = data(a(501:end),:);
    
 % 训练数据
    
 P_train = Train(:,3:end);
    
 T_train = Train(:,2);
    
 % 测试数据
    
 P_test = Test(:,3:end);
    
 T_test = Test(:,2);
    
  
    
 %% 创建决策树分类器
    
 ctree = ClassificationTree.fit(P_train,T_train);
    
 % 查看决策树视图
    
 view(ctree);
    
 view(ctree,'mode','graph');
    
  
    
 %% 仿真测试
    
 T_sim = predict(ctree,P_test);
    
  
    
 %% 结果分析
    
 count_B = length(find(T_train == 1));
    
 count_M = length(find(T_train == 2));
    
 rate_B = count_B / 500;
    
 rate_M = count_M / 500;
    
 total_B = length(find(data(:,2) == 1));
    
 total_M = length(find(data(:,2) == 2));
    
 number_B = length(find(T_test == 1));
    
 number_M = length(find(T_test == 2));
    
 number_B_sim = length(find(T_sim == 1 & T_test == 1));
    
 number_M_sim = length(find(T_sim == 2 & T_test == 2));
    
 disp(['病例总数：' num2str(569)...
    
       '  良性：' num2str(total_B)...
    
       '  恶性：' num2str(total_M)]);
    
 disp(['训练集病例总数：' num2str(500)...
    
       '  良性：' num2str(count_B)...
    
       '  恶性：' num2str(count_M)]);
    
 disp(['测试集病例总数：' num2str(69)...
    
       '  良性：' num2str(number_B)...
    
       '  恶性：' num2str(number_M)]);
    
 disp(['良性乳腺肿瘤确诊：' num2str(number_B_sim)...
    
       '  误诊：' num2str(number_B - number_B_sim)...
    
       '  确诊率p1=' num2str(number_B_sim/number_B*100) '%']);
    
 disp(['恶性乳腺肿瘤确诊：' num2str(number_M_sim)...
    
       '  误诊：' num2str(number_M - number_M_sim)...
    
       '  确诊率p2=' num2str(number_M_sim/number_M*100) '%']);
    
   
    
 %% 叶子节点含有的最小样本数对决策树性能的影响
    
 leafs = logspace(1,2,10);
    
  
    
 N = numel(leafs);
    
  
    
 err = zeros(N,1);
    
 for n = 1:N
    
     t = ClassificationTree.fit(P_train,T_train,'crossval','on','minleaf',leafs(n));
    
     err(n) = kfoldLoss(t);
    
 end
    
 plot(leafs,err);
    
 xlabel('叶子节点含有的最小样本数');
    
 ylabel('交叉验证误差');
    
 title('叶子节点含有的最小样本数对决策树性能的影响')
    
  
    
 %% 设置minleaf为28，产生优化决策树
    
 OptimalTree = ClassificationTree.fit(P_train,T_train,'minleaf',28);
    
 view(OptimalTree,'mode','graph')
    
  
    
 % 计算优化后决策树的重采样误差和交叉验证误差
    
 resubOpt = resubLoss(OptimalTree)
    
 lossOpt = kfoldLoss(crossval(OptimalTree))
    
 % 计算优化前决策树的重采样误差和交叉验证误差
    
 resubDefault = resubLoss(ctree)
    
 lossDefault = kfoldLoss(crossval(ctree))
    
  
    
 %% 剪枝
    
 [~,~,~,bestlevel] = cvLoss(ctree,'subtrees','all','treesize','min')
    
 cptree = prune(ctree,'Level',bestlevel);
    
 view(cptree,'mode','graph')
    
  
    
 % 计算剪枝后决策树的重采样误差和交叉验证误差
    
 resubPrune = resubLoss(cptree)
    
 lossPrune = kfoldLoss(crossval(cptree))

全部评论 (0)

还没有任何评论哟~

决策树分类器的应用研究——乳腺癌诊断

决策树DecisionTree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种...

sklearn实现决策树对乳腺癌的分类诊断（下）

前面我们做的关于决策树的代码实现是对一个数据集进行划分为训练集和测试集，这篇使用的训练集和测试集是已经帮你划分好的存放在二个文件里的。这里我们使用的训练集和测试集都是关于乳腺癌的数据集，但是和前面我...

《MATLAB 神经网络43个案例分析》：第28章决策树分类器的应用研究——乳腺癌诊断

《MATLAB神经网络43个案例分析》：第28章决策树分类器的应用研究——乳腺癌诊断 1\.前言 2\.MATLAB仿真示例 3\.小结 1\.前言《MATLAB神经网络43个案例分析》是MATLA...

sklearn-SVM-乳腺癌诊断分类

目录 01SVM简介 02乳腺癌诊断 1.先导入需要的库 2.设置seabon，matplotlib中文显示，pycharm显示行数扩大 3.svm实例化 4.数据集准备 5.数据集预处理 6.描述分...

支持向量分类机---乳腺癌的诊断

%原始数据cancerdata.txt可在网上下载，数据中的B替换成1，M替换成1，X替换成2，删除了分割符,替换后的数据命名成cancerdata2.txt clc,clear a=load'can...

利用决策树分析乳腺癌患者存活

1.背景乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤。乳腺癌中99%发生在女性，男性仅占1%。乳腺并不是维持人体生命活动的重要器官，原位乳腺癌并不致命；但由于乳腺癌细胞丧失了正常细胞的特性，细胞之间连接松...

乳腺癌诊断分析——基于聚类分析实现

一、研究背景乳腺癌属于恶性肿瘤，在早期发现后需要及早将病变组织切除，而且术后还要化疗和放射等辅助治疗，能够抑制癌细胞的扩散和增长。二、研究目的 1.研究乳腺癌病人的患病特征 2.通过聚类分析方法对...

使用K近邻算法诊断乳腺癌

使用K近邻算法诊断乳腺癌一、设计内容及目的（一）设计内容数据收集：收集包含乳腺癌相关特征的数据集，例如肿块大小、肿块形状、肿块表面的光滑度、肿块边缘的均匀性等。这些特征可以从乳腺癌病例的医疗记录...

基于分类器的乳腺癌分类

乳腺癌的类型很多，但大多数常见的是浸润性导管癌、导管原位癌和浸润性小叶癌。浸润性导管癌IDC是最常见的乳腺癌类型。这些都是恶性肿瘤的亚型。大约80%的乳腺癌是浸润性导管癌IDC，它起源于乳腺的乳管。

文献速递：深度学习乳腺癌诊断---使用深度学习改善乳腺癌诊断的MRI技术

Title 题目 ImprovingbreastcancerdiagnosticswithdeeplearningforMRI 使用深度学习改善乳腺癌诊断的MRI技术 01 文献速递介绍乳腺磁共振成...

是否确定退出登录?

决策树分类器的应用研究——乳腺癌诊断

全部评论 (0)

相关文章推荐

决策树分类器的应用研究——乳腺癌诊断

sklearn实现决策树对乳腺癌的分类诊断（下）

《MATLAB 神经网络43个案例分析》：第28章 决策树分类器的应用研究——乳腺癌诊断

sklearn-SVM-乳腺癌诊断分类

支持向量分类机---乳腺癌的诊断

利用决策树分析乳腺癌患者存活

乳腺癌诊断分析——基于聚类分析实现

使用K近邻算法诊断乳腺癌

基于分类器的乳腺癌分类

文献速递：深度学习乳腺癌诊断---使用深度学习改善乳腺癌诊断的MRI技术

《MATLAB 神经网络43个案例分析》：第28章决策树分类器的应用研究——乳腺癌诊断