Advertisement

【数模研赛思路】2023华为杯研究生数学建模竞赛选题建议及CDEF题思路

阅读量:

很高兴,在刚刚结束的全国研究生数学建模竞赛中,在这里先行提供选题方向和解题思路。

当前团队正在撰写E题完整的论文;另外,C已经交出了第一问的代码实现和研究结果;这篇文档只是一个初步的文字版的思路;进一步的详细讲解可以在半小时视频中获得链接。

数模研赛思路

数模竞赛思路

首先是主基调:

本次竞赛推荐小白参与E题。该赛题为典型的以数据分析为核心的赛项,在涉及的内容上较为全面,在解法上相对固定。A和B两题难度较高,在考察知识深度的同时对创新能力要求较高。C题属于优化问题,在第一小题相对容易的基础上后续小题更具挑战性。D题属于评价体系的设计,在考察知识深度的同时对创新能力要求较高,并且解答过程中需深入理解各个指标的具体意义。仅建议具备较强数据处理能力的队伍参与F题的解答工作

本次我会写E完整论文,预计23号中午更新,C目前完成了第一问代码及结果。

接下来开始具体讲解:

C题 大规模创新类竞赛评审方案研究

问题一

在每个评审环节中(即每个评审阶段),参赛作品通常会采用随机分配的方式进行分发。每位参赛作品都需要由多位独立的评审专家进行评估,并确保各评审专家给出的成绩具有可比性。然而,在不同专家负责的作品集中存在较大的交叠可能会导致较小的重叠部分出现(从而影响成绩的可比性)。针对涉及3000支参赛队和125位评审专家的情况(其中每位作品由5位专家进行评价),请建立数学模型分析和优化"交叉分发"方案,并从理论和实践两方面探讨该方案的具体指标体系(由本人设计)及其实施细节

问题一的主要要求是让我们提出一个方案,并且尽可能地提升各专家给出成绩的一致性和可比性。这里我们确定思路:

  1. 参赛队伍数量:3000
  2. 评审专家数量:125
  3. 每份作品的评审专家数:5

目标:

  1. 提升不同专家之间的对比性。
  2. 保证每位评审专家获得的作品数量均衡分配。
  3. 确保每份作品都由多位专家共同进行细致的评审工作。

建立约束条件之后,我们可以通过matlab代码进行实际求解:

部分代码:

复制代码
 num_teams = 3000;

    
 num_judges = 125;
    
 judges_per_team = 5;
    
 max_iterations = 10000;
    
  
    
 % 初始化分配矩阵
    
 assignment = zeros(num_teams, num_judges);
    
 for i = 1:num_teams
    
     judges_for_team = randperm(num_judges, judges_per_team);
    
     assignment(i, judges_for_team) = 1;
    
 end
    
  
    
 % 调整分配,使每对评审专家至少有一个共同的团队
    
 iteration = 0;
    
 while iteration < max_

最终结果展示:

问题二

这里我们可以考虑下面的因素:

采用权重机制:为了对那些在多个评审环节均表现优异的作品给予更高的重视,并有助于更公平地评估作品的质量

随后我们决定对标准分计算方案进行重新设计,并特别关注通过二次评审结果来评估并优化测试方案的效果

具体求解等我更新。。。。

D题 区域双碳目标与路径规划研究

这道题虽然思路并不复杂,在对指标选取方式以及各指标间的相互关系进行深入分析时,则要求我们不仅要准确把握每个指标的实际应用价值,并且必须仔细研读题目中对各项指标的具体说明。

问题一:

区域碳排放量以及经济、人口、能源消费量的现状分析

指标体系搭建没什么好说的,比较简单。

对于要求1:基于2010年作为基准,研究某区域在第十二五年计划(2011-2015)及第十三至十四五年计划(2016-2020)期间的碳排放总量及其变化趋势

比较简单,计算变化量后绘制趋势图就行。

分析对该区域碳排放量产生影响的各因素及其贡献;

通过第一问所设定的指标体系来预测排放量。采用以决策树为基础构建的机器学习模型即可实现这一目标。例如,在具体实施中可运用随机森林算法或gbdt模型来进行数据建模与分析。我们的目标并非是获得具体的预测数值;而是希望在求解过程中能够获得各个因素的重要程度排序信息

第三条涉及的范围包括区域碳排放总量及经济活动规模、人口数量与能源消耗水平等多个关键指标之间的相互联系

无需赘述的是,在计算环比与同比指标时

至于后面的问题二问题三,基本也都是机器学习模型,等我更新吧。。。。

E题 出血性脑卒中临床智能诊疗建模

本题E题属于典型的数据分析类问题。其解决方案具有明确的方向性。涉及的内容也比较全面。我会计划性地优先发布这道题的完整论文。

问题一

为了解决这个问题,请参考表1中的入院时的首份影像检查记录编号以及从发病到第一次影像检查之间的时间跨度数据;同时查看表2中的不同时间段的记录编号及其对应的HM_volume值。我们需要确定,在患者sub001至sub100中,在发病后的48小时内是否发生了血肿的扩大情况。

结果填写规范

结果填写规范

结果填写规范

首先主要涉及计算从发病到检测的时间段,并且特别指出题目中提供的表一中记录的是发病至首次检查的时间间隔:

本题要求判定是否为血肿扩大情况,并且后续检查结果需满足相较于首次检查而言,在绝对体积上增加了至少6毫升,在相对体积上增加了至少33%

那么后续检查时间是什么?

这个时间点对应的体积为:

因此,在各个采样点上的体积值差值计算结果能够反映血肿扩大的情况。需要注意的是,在发病后的时间间隔必须不超过48小时。在两次检测之间的时间差基础上增加前面的时间间隔数值后观察总结果是否超过了48小时。

请以血肿扩展事件的发生情况为目标变量,在表1提供的前100例病例(sub001至sub100)的病史信息以及与发病相关的因素(E-W字段)的基础上,并结合表2和表3中基于各自患者的影像检查数据(C-X及C-AG字段),建立预测模型以评估所有病例(sub001至sub160)中血肿扩展事件的发生概率

将题目所提到的因素数据输入到模型中,在基于我们之前得出的结果的情况下进行0/1分类的机器学习预测会很直接。

第二问:

血肿周围水肿的动态变化模式建立及发展规律研究
a) 请基于"表2"中前100例患者的ED_volume值及其多次检测时间点数据,在发病至影像学检查的时间段内拟合全体患者的水肿体积随时间变化趋势曲线(x轴表示发病至影像检查的时间间隔;y轴代表水肿体积值;y=f(x)),并评估前100例患者的ED_volume真实值与拟合模型预测值之间的差异。

把所有人的曲线都绘制进去,然后拟合算残差,不难但是有点繁琐而已。

a) 请分析患者水肿体积随时间动态变化特征的个体差异性,并基于3至5个分组构建各自的水肿体积随时间变化曲线;随后评估前100例患者(sub001至sub100)的真实值与对应预测曲线之间的差异水平。

首先通过肉眼观察曲线图是否存在明显的差异;若发现显著差异,则可进行手动分类;反之则可采用聚类分析方法将其划分为三至五类;最后将各组数据重新绘制图表并计算相应的残差

a) 请分析不同治疗方法(“表1”字段Q至W)对水肿体积进展模式的影响。

做差异性分析就行,看一下不同治疗方法之间是否存在显著差异。

a) 请分析血肿体积、水肿体积及治疗方法(“表1”字段Q至W)三者之间的关系。

相关性分析即可。

问题三:

请基于以下数据建立预测模型:初始阶段的患者群体的个人病史和疾病史,并考虑与发病相关的因素(参考表1中的字段E到W)。首次影像检查结果并结合来自表2和表3中的相关字段作为输入数据。该预测模型将用于评估这些患者的未来9个月mRS评分变化情况。

比较无脑的机器学习,7分类的分类预测。后面两问也就是这样的思路。

总体而言,e题还是比较简单,推荐小白去选择。

F题 强对流降水临近预报

怎么说呢,题目本身是个机器学习预测的无脑题目,但是这个数据量吧。。。:

总体而言,在解压后的大约70GB空间内整理这些数据将是一个繁琐的过程。不建议经验不足的队伍尝试进行大数据处理工作。

此处只是提供了一个简要的图文说明,请您关注此处内容仅为初步展示

全部评论 (0)

还没有任何评论哟~