Advertisement

【Ryo】SPSS Modeler:贝叶斯网络在预测银行信贷风险中的应用

阅读量:

本文探讨了银行信贷违约风险的预测方法,特别强调了贝叶斯网络的应用。通过CRISP-DM流程进行研究设计,并利用SPSS Modeler对数据进行挖掘与建模。研究采用了美国IBM微观数据库中的小型信贷数据集,包含1000个客户信息,包括年龄、受教育程度、工龄等特征。通过缺失值分析和数据描绘,揭示了低收入人群和短工龄人群更容易产生违约的风险。建立了三种贝叶斯网络模型(TAN、马尔科夫和FS-Markov),其中TAN模型的正确率最高(80.5%),并成功识别出影响违约的关键因素如家庭收入和工作年限。建议银行关注这些高风险客户群体,并采取相应的风险管理措施以降低贷款风险。

在银行信贷领域中,在关注客户违约风险量化的同时进行风险预测成为管理层的重要议题。面对复杂的信息架构与海量数据群体,在运用贝叶斯网络时可识别影响因素间的关联性关系作为提升信贷违约风险预测准确性的有效手段;通过将相关因素纳入因果模型并计算各指标对拖欠还款的影响程度同时结合模型评估分析比较最终选取最优方案实施贷款管理可有效判断是否继续提供贷款从而提升整体风险管理能力。

研究模型 软件 日期
贝叶斯神经网络 SPSS Modeler 2019年1月2日

△△△△△本文为个人项目练习,仅供参考,如有不足欢迎讨论 △△△△△

一、研究背景

当前金融业改革呈现出新的格局,在银行借贷业务领域中各类消费贷款规模持续增长。其中小额信贷与大额信贷产品逐渐占据重要地位。在经济新常态下外部环境与经营状况日益复杂多变的影响下客户还款能力和债务履行状况日益严峻拖欠贷款现象日益普遍小型银行面临经营风险逐步加剧因此识别潜在的信用风险客户可以通过限制贷款额度或其他方式加以防范这对银行优化风险管理具有实际意义。
贝叶斯网络(Bayesiannetwork)作为一种概率推理方法目前已成为大数据挖掘与人工智能研究的重要方向。尽管其创新性值得肯定但现有研究主要集中在贝叶斯网络在操作风险管理中的应用层面对于其本身原理的具体阐述以及结合实例的操作研究相对不足如何将贝叶斯网络理论与实际问题相结合进而分析预测银行针对特定客户的信用风险这一议题亟待深入探讨。

二、研究方法及路径

(一) 研究目标和研究方法:
本文旨在利用贝叶斯网络方法对难以识别表面联系且属性复杂的各类因素进行综合考量以构建概率模型,并以此预测潜在会出现还款问题的客户群体从而提出相应的风险控制建议以降低银行信贷业务的风险水平。
通过采用CRISP-DM过程模型来明确研究思路及前期准备工作随后运用SPSS及SPSS Modeler对数据展开挖掘工作并构建贝叶斯网络模型进而分析影响客户还款可能性的关键因素随后对贷款风险进行实证判别并对可能存在问题的潜在客户进行预测分析。
(二) 研究路径:
本研究采用双重结构展开工作一方面基于CRISP-DM过程模型来确立整体的研究框架及前期工作安排另一方面通过构建贝叶斯网络模型来进行实证分析与预测工作主线包括数据描述判别建模及实证分析等环节而副线则侧重于对贝叶斯网络模型的评估并总结归纳得出结论并形成完整的研究报告框架

研究流程图

研究路径图

三、前期准备——通过CRISP-DM模型完成思路构建

在这里插入图片描述

CRISP-DM模型过程示意图

(一) 数据理解(data understanding)
在数据分析与建模的过程中, 首先需要完成的是对原始资料的收集工作以及基本特征的理解与整理工作。为了确保后续建模工作的顺利开展, 在这一关键阶段我们需要系统地掌握所涉变量的基本分布特征及其相互之间的关联关系等基础信息。具体来说, 我们需要完成的主要工作包括: 对历史数据分析与预处理; 对变量分布特征提取; 对核心指标间相关性分析; 以及建立初步的数据透视表等基础准备工作等多方面的工作任务。 本研究采用了一种基于美国IBM微数据库的小型银行样本模型作为核心研究框架, 其优势在于样本描述清晰完整且具有较高的应用价值; 不足之处在于模型选取的时间窗口较为狭窄, 存在一定时效性不足的问题

在第三阶段的数据准备过程中,我们通过从原始数据库中筛选出具有代表性的样本并剔除不符合条件的数据点来构建完整的分析数据集.具体任务包括制作表格,记录信息,选择和转换变量以及针对建模工具进行的数据清洗工作.一个关键考量是根据分析目标的相关性原则来选择合适的数据源及其配套工具.在本研究中,默认情况下我们排除了存在字段缺失的数据点,并最终获得了1000名完整样本人数的数据样本.其中违约情况作为目标变量确定为输出项指标,其余指标则作为输入变量使用.

(三)建模(modeling)
这是整个过程的核心环节,在不同模型对比的基础上进行参数优化以获得最优的模型结构。通过构建多种模型进行对比分析, 筛选出最优的模型结构, 同时需回溯上文分析原因。本文采用贝叶斯网络模型作为分析工具, 旨在系统评估影响还贷违约的关键因素及其重要性, 并对三种不同的马尔科夫变体进行性能对比研究。所涉及的具体模型包括基础TAN框架、马尔科夫链基本形式以及基于FS特征值优化的马尔科夫拓展结构。

(四)评估(evaluation)
在保证已建立模型可靠性的过程中,在这一阶段需要回顾模型构建过程以及最终结果。从构建模型的过程中执行的所有步骤及其效益方面进行评估是非常重要的。这样才能确保这些模型是否达到了预期目标。值得注意的是,在实际应用中获得的结果及其总结结论是否具有现实意义至关重要。本文通过Analysis节点分析其可靠性,并采用Evaluation节点分析其效用性。通过对贝叶斯网络中三种不同模型预测精度进行对比分析后,在经过评估后选择最适合该场景的应用方案,并总结归纳了实证案例分析的结果。

四、数据描述与分析

这一部分主要阐述了对数据理解和准备的过程。具体来说,在数据分析阶段使用SPSS Statistics对数据进行筛选和预处理,并通过描述性统计分析和可视化展示帮助理解数据特征。这些工作不仅有助于提高数据分析质量,还为后续建模工作奠定了坚实的基础。

(一) 数据选取与清理
本文选取美国IBM(国际商业机器公司)微观数据库中某银行的小型信贷数据作为分析对象,其中包含1000名已知曾经是否有过违约记录的客户,我将通过分析1000名客户的信息来建立模型,通过实证分析其预测的准确度,判断哪种模型能够较好的预测特定信息人群将来是否会违约。
客户信息包括年龄、受教育程度、工龄、住所地址、收入、负债率、信用卡负债、其他负债和是否违约。其中受教育程度为有序变量:1=高中及以下学历,2=高中学历,3=大专/专科学历,4=大学学历,5=硕士及以上学历;是否违约为是否型变量:1=是,0=否,其余均为定量变量。
进行数据分析-缺失值分析,选择成对及EM选项,得到如下表一。这一操作在研究缺失值的同时进行简单的统计,可以看出进行单变量统计,实证分析的个案个数为1000,没有存在缺失值default或者null,因此不需要排除个案。研究缺对违约信息不进行一般统计,只需要知道其不存在缺失值。下表为变量描述性统计(2条为例)

变量 均值 标准差 缺失 极小数目 极大数目
年龄 35.08 8.032 0 0 0
负债率 10.06 6.609 0 0 22

由此可见,无需对样本中的缺失值进行剔除以及优化数据质量.观察结果表明,在样本中极值呈现为少于9%的情况较为常见.基于此,在完成上述处理后可顺利开展后续分析步骤.

采用绘制多重散点图的方式进行数据分析结果表明:将违约情况作为分类面板变量,并以收入作为X轴变量、信用卡负债和其他类型的负债作为Y轴显示变量的散点图进行展示如图所示

在这里插入图片描述

信用卡负债.其他负债v收入的多重散点图

这一步骤能明显地显现成效,在不考虑违约情况下(即使未发生违约情况),低收入群体的信用卡债务总额通常低于其他类型的债务;当个人月收入超过10万元时,在未发生违约情况下(即使未发生违约情况),信用卡债务总额通常会超过其他类型的债务;而那些出现了违约行为的低收入群体则普遍承担着更高的债务水平。

为了描述教育水平与收入及负债之间的关联关系,在大学学历阶段的个体中发现:随着教育水平的提高(即教育程度的加深),信用卡债务逐渐减少;同时,在大学学历期间,收入水平达到了峰值。

在这里插入图片描述

教育程度与收入负责图

请看下文段落将详细展示工龄、住址以及负债率这三个重要指标的三维模型关系。如图所示为该三维表面图的具体呈现。

在这里插入图片描述

工龄、住址、负债率的三维表面图

从数据可以看出, 负债率的变化缺乏明显的规律性, 无法形成清晰的认识框架。然而, 我们可以注意到一个明显的现象: 具有较长工作时间和居住时间的人群显示较低的负债水平, 这一发现有助于我们评估这些数据是否符合实际情况, 并判断当前图表是否存在处理上的问题。进一步而言, 这一发现表明该图表未能有效传达所需信息的价值

(三)归纳结果
以上基本将各属性分开重叠归类绘制图形,目的在于分解看是否有突出变量对负债有影响,可以认为低收入、短工龄的人群具有较高的负债可能,但是整体上看这些因素十分交错复杂,无法分清主次,因此这些因素用作推断是否违约的依据需要通过建立模型来解决。
五、模型描述与建立
这一部分是本文的核心。具体分为两部分,第一部分是模型描述和理解,第二部分是建模与实证分析。

五、模型描述与建立

这部分是本文的关键内容。具体可分为两个方面:第一个方面涉及模型的构建与内涵解析;第二个方面则聚焦于模型构建与实证分析。

(一)模型描述和理解
贝叶斯网络是一种概率图形模型,在处理不确定性推理方面具有独特优势。它通过有向无环图(DAG)的形式来模拟人类处理条件概率关系的能力。根据现有研究资料可简述如下:
其核心要素包括一组随机变量X1,X2,X3…Xn等节点元素;通过分析这些变量间的条件概率关系(如父-子关系)构建网络拓扑结构;使用单向箭头表示变量间的影响方向;每条有向弧都对应一个条件概率值P(H|E),其中E为父节点,H为子节点;例如,当E对H产生直接影响时,通过建立(E→H)的有向边并赋予权重P(H|E)来表征这种影响关系

在这里插入图片描述

本图为引用

构建贝叶斯网络模型将采用SPSS Modeler这一工具开展操作,并具体分为八步。具体而言,每一步骤均可通过编号的方式逐一标注为[1]-[8]

指定源节点,并加载bayes.sav文件,其数值为上文所述的完整数据集(经SPSS处理所得),无需进一步准备即可开展后续建模工作。

在记录选项中选择节点" type"并将其注解为"更改类型"。其主要目的是区分目标字段与输入字段,并获取建模所需的数据信息。将违约标记指定为目标字段,并点击读取值以获取相关信息。

在这里插入图片描述

在这一阶段,我们构建了三个训练模型,并完成了贝叶斯网络主体结构的搭建。随后,在整合各模型之间的节点关系的基础上展开后续分析工作

在这里插入图片描述

[4]运行基础的TAN模型,此模型的贝叶斯网络图如下:(显著性水平0.01)

在这里插入图片描述

从TAN模型的表现来看,辐射范围非常广泛.通过图表进一步观察发现,导致违约可能性最大的两个因素是蒋婷的收入水平以及其当前的工作年限.其余大多数变量的影响程度相当接近,其中年龄的影响程度最为微弱.

在这里插入图片描述

[5]运行马尔科夫(Markov)模型,此模型的贝叶斯网络图如下:(显著性水平0.01)

在这里插入图片描述
在这里插入图片描述

能够看出马尔科夫模型所覆盖的范围较小;主要因素包括仅仅四个关键指标;其中最为关键的是当前雇员的工作年限和负债收入比率。

[6]运行特性马尔科夫(FS-Markov)模型,其对应的贝叶斯网络架构及其性能表现分析见下文:置信度为99%。

在这里插入图片描述
在这里插入图片描述

最后一种特征马尔科夫模型主要包含两个重要因素:负债收入比率和当前雇方的工作年限。尽管与普通马尔科夫模型相比两者都涉及这两个因素然而它们的影响程度存在显著差异。其中负债收入比率的重要性超过0.5后可视为主要因素这也正是使其结构被称为"特征"的原因。

第七步旨在呈现最高深度构建的终端节点,并通过后续的评估与分析操作以确保后续的评估与分析操作能够顺利进行,并且能够精准地选择出最适合的模型

在这里插入图片描述

[8]最后展示本次挖掘分析得到贝叶斯网络流如下所示:

在这里插入图片描述

该流程首先涉及数据导入和类型筛选环节,在此基础上生成基础数据可视化图。随后构建三个不同的结构化预测模型以判断是否会违约,在模型训练完成之后对相关字段进行调整,并对结果进行分析与评估。最终确定最优的模型,并总结研究发现。

六、模型评估与实证解读

该模型运行后实现了案例客户的详细信息分析。随后需评估三个结构化模型的准确率及带来的收益。进而判断最适合我们的模型,并进行实证分析。

采用Analysis节点对三个模型的预测准确率展开分析。值得注意的是,在此过程中所提及的"正确率"这一指标是指将这些模型与目标项"违约"(即曾经是否违约)的实际结果进行对比得出的具体数值。实际上,所谓正确率是指将这些模型与目标项"违约"(即曾经是否违约)的实际结果进行对比得出的具体数值。具体数据则展示在下表中。无需逐一列举这些具体的训练结果。

模型 正确率
TAN 80.5%
Markov 78.7%
FS-Markov 77.9%

经分析可知,在准确率方面表现最为突出的是基础TAN模型;其后则是马尔科夫链与特种马尔科夫模型;基于以上观察结果,在后续预测任务中选择采用基础TAN模型作为主要方案。

借助Evaluation节点对三个模型的收益情况进行分析,请具体结果见下文

在这里插入图片描述

模型收益评估

可见该模型的收益呈递增趋势,在各个阶段均展现出显著的增长效果。值得注意的是,在后部区域中TAN的增长趋于平缓,在大多数情况下都展现出较高的收益水平。这种现象可以从另一个角度进行理解:鉴于其准确率位居榜首,在当前分析框架下构建出的贝叶斯网络结构(即TAN)能够最大限度地实现对关键预测指标的良好把握与准确度保障。因此我们可以明确得出结论:此即表明贝叶斯网络构建的TAN模型是最适合用于评估未来贷款违约风险的有效工具。

(三) 实证解读
已知TAN模型因其卓越的效果而备受推崇,在本节中将对模型的核心结果进行详细解析。下图左侧展示了贝叶斯网络TAN模型的案例分布情况,在与建模过程中的神经节点进行区分的同时,本图表征了数据的大致分布情况。在分析主要影响因素时选择了家庭收入这一关键指标,并重点考察其条件概率关系如右图所示。

在这里插入图片描述

案例分布与家庭收入的条件概率结合图

对家庭收入的条件概率图最后一行进行简单解析:针对古方工作年限超过28.8年的客户群体而言,在不违约的情况下(即假设这些客户的违约行为未发生),其收入水平落在67.22至121.44千元之间的概率最高(占比36%)。其次,在121.44至175.66千元这一区间内的概率为27%,以此类推。其余分布情况的具体分析同样采用了类似的分析方法……从分析结果来看,在不同年龄层的客户群体中……这与最初的预期一致;同时我们发现,在任何一个固定收入区间内(即一个特定的收入范围),年龄层较短的客户群体更容易出现违约现象……这些结论也与现实中的观察结果相吻合。其余分布情况的具体分析同样采用了类似的分析方法……最后所得出的结果涵盖了影响客户违约的主要因素以及预测客户是否会出现违约行为的关键指标。

七、结论建议

通过对数据进行分析之后,我给出以下建议:

(一) 针对原模型的不足归纳

1.需要更新不同数据进行训练,迭代出最合理的模型提高精确度。

2.对各类客户进行分类仅能基于其是否属于"高危人群"这一特征,在实际操作中还需配合其他手段综合分析以实现风险管理策略的制定

(二) 针对实际生活中,我建议相关的银行信贷业:

重点关注客户的教育水平与信用卡负债情况,并注意到这两项指标处于核心地位,在涉及诸多方面时会对其整体表现产生影响。具体而言,在教育水平较低且信用卡欠债较高的客户中可能会对整体情况产生显著影响,并可能导致未来违约风险的出现。

2.主要关注家庭收入和当前雇方的工作年限这两个重要因素不仅会对是否违约具有直接影响而且也是极为重要的考量。其还款能力相对较弱特别是那些收入较低且工作年限较短的人更容易产生违约风险对于这些情况(即其收入较低且工作年限较短)应采取相应的措施来控制其贷款额度并对其还款时间进行合理的安排与管理。

  1. 年龄并非最重要的考量因素,不应成为首要关注对象,所有年龄段的借款客户都应重点关注其信贷负债状况,实施全面的风险管理措施。

参考文献

[1] IBM SPSS Modeler 软件应用教程. Keith McCormick教授.
[2] 周森鑫、李超、吴德成等. 贝叶斯网络在银行信贷风险预测中的应用研究[J]. 鸡西大学学报, 2014, 14(10).
[3]CRISP-DM
[4] 张治斌. 基于SPSS Modeler的数据挖掘过程解析[J]. 数字技术与应用. 7月号:75-77.
[5] 卢泽. 基于贝叶斯网络的客户信用评估与研究[D]. 华中科技大学, 2018.
[6] 郭鑫. 基于CRISP-DM流程可视化数据挖掘工具的研究与实现[D]. 东华大学, 2009.
[7] IBM SPSS Modeler 18.0 数据挖掘权威指南[M]. 张浩彬译. 北京:人民邮电出版社, 页码缺失

全部评论 (0)

还没有任何评论哟~