Advertisement

金融风控项目

阅读量:

一、问题定义

金融的核心是风险控制。自然而然地,AI的主战场也变成了如何使用AI技术精准的做风险控制。

在风控领域,有一个很重要的问题是:如何通过用户的信息来判断用户的逾期与否

我们通过收集用户的基本信息、地域信息、社交信息等来判断一个人的逾期概率。

我们的问题是:基于用户相关的信息来预测此用户是否违约

数据如下:https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1

二、ROC与AUC

特征工程:

第一、很多特征存在大量的缺失值。那这些特征怎么办呢? 删掉呢,还是保留呢? 如果删掉,什么样的特征需要删掉呢?

对于此问题,我们可以设计一些规则。比如我们总共有100个样本,如果一个特征在超过60%以上的样本上都是NAN,可以删掉这个特征。具体的阈值可以通过可视化的方式来选择的。

第二、样本本身具有大量的缺失值。对于这个问题在第一部分也说过一次。一个简单的处理方式是:假如一个样本包含了超过50%以上的值为NAN,可以删掉此样本。

第三、在数据中有一些关于城市的数,而且城市本身对于逾期率还是有着很强的相关性。

比如某些地区的借款人,逾期率就会比其他地区的人高。所以这个特征本身是有价值的。但是除了头部几个城市跟逾期率有很大关系,剩下的许许多多城市倒是没有太大的关系。

对于这样的特征我们可以采用二值化的处理。举个例子,如果我们发现城市A,城市B,城市C, 城市D的逾期率较高。那么,我们可以对这些城市做二值化 的处理。

具体做法如下: 比如一个样本的城市为”城市A“, 则通过二值化我们可以把城市信息表示为(1,0,0,0),这里的每一个位置代表A,B,C,D其中一个。再比如一个样本的城市为C,我们则可以表示成(0,0,1,0)。如果一个样本的城市为”城市F“,由于城市F不属于这几个头部城市,所以直接就表示为(0,0,0,0)。针对于城市E也是一样的表示。

通过这种转换,我们其实放大了几个特征的作用。在数据科学里是一种常见的手段。

第四、有些字符串的特征需要清洗。比如在一种特整理既出现“北京”,也出现“北京市”, 这时候就需要把“市”去掉,然后合并成同一个字符串。

第五、可以设计一些衍生的特征。举个例子,有两组特征,分别是户籍的所在地和申请贷款时的所在地。当申请贷款时的所在地不同于户籍所在地的时候就意味着这个人是在异地申请的,有可能存在一些风险。

对于这种情况,我们可以制造一个新的特征(随便取一个名字)。当户籍所在地和申请时的所在地一样的时候设置为0, 不一样的时候设置为1。

第六、对于类别型特征,可以像往常一样用独热编码的形式来表示。

除了特征的预处理,在此项目中可以适当的做一下特征选择的工作。 建议使用Tree-based Classifier来选择特征,比如决策树,XGBoost等。

用数据训练完这些模型之后,你可以通过模型自带的feature_importances_来获取每一个特征的重要性,然后通过排序即可以得到每个特征的重要性。

之后基于选出来的特征重新构造训练数据和测试数据,之后再做最后的模型的训练。

简单说一下模型的评估。在此项目中,我们使用的评估方法叫做AUC(area under the curve) ,是一种常用的用来评估二分类的评估标准。

其实就是通过FP(false positive),FN(false negative),TP(true positive),TN(true negative)来画出一条ROC曲线,然后再计算它的面积,就可以得到AUC的值。

使用方法请参考:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score, 这个值越大模型越精准。如果AUC值为0.5,就意味着是一条对角线,意味着完全随机预测。

AUC的介绍:

<>

通常对于二分类问题,希望AUC能够达到0.8以上。

三、如何处理样本不平衡的问题?

假如正负样本差别比较大,比如20:1这种。可以采用适当的方法来处理,比如采样的方法。

举个例子,当正样本个数远远少于负样本的时候,我们可以采样更多的正样本。相当于,很多的正样本被我们重复使用,这个过程也叫作over-sampling。这样一来,至少训练的过程当中,正负样本比例差别不大的。

相反,如果负样本更少,我们则可以采样更多的负样本。

还有一种方式是,当正样本远远少于负样本时,我们可以部分采样负样本,使得采样后的负样本个数跟正样本差不多,这种过程叫作under-sampling。

上述两种方式是遇到样本不平衡问题时的常见的处理方式。 可以参考:https://zhuanlan.zhihu.com/p/28850865

全部评论 (0)

还没有任何评论哟~