一文看懂特征工程在金融风控中的应用-火龙果软件

捐助

一文看懂特征工程在金融风控中的应用

5361 次浏览

2018-11-5

编辑推荐:

本文来自于csdn，本文以特征工程在金融风控中的应用为切入点，对特征工程的大致内容进行了概述。

在建模领域人们常说，数据和特征决定机器学习的上限，而模型和算法只是不断地逼近这个上限。所以，特征工程在建模中起到了决定性的作用。在金融实践领域，虽然特征工程得到了越来越多的重视，但是大家对特征工程的理解，出于行业机密和特征工程的复杂性等原因，一直没有系统的定义与总结。其中主要包括，特征工程的定义、意义、方法理论等内容。

1．特征工程的定义

特征工程是将原始数据，通过业务逻辑理解、数据变换、特征交叉与组合等方式，量化成模型训练和预测可直接使用的特征的过程。其中主要包括了数据认知，数据清洗，特征提取，特征选择四个部分。

a) 数据认知：基于实际业务场景理解数据内容，发现数据与研究问题的关系。

b) 数据清洗：对数据进行规整，移除重复变量、处理缺失、异常数据等。

c) 特征提取：通过业务理解和技术实施，构造出描述研究问题的特征。

d) 特征选择：在构造的特征中筛选出最能刻画研究问题的特征。

数据认知和数据清洗需要基于具体的业务场景和数据具体分析，本文主要针对特征提取和特征选择的常用方法做详细说明。

2．特征工程在金融风控领域的意义

风险控制作为金融的核心，一直备受关注。在传统金融机构中，通过业务中的金融逻辑来反应借款人的风险是常用方法，例如：

通过收入水平评估偿还能力，能力越大风险越小；

通过历史还款记录评估还款意愿，记录越好风险越小；

通过抵押物估值评估风险，估值越高风险越小。

这些基于业务的因果关系的应用能够有效的对借贷过程中的风险进行控制，但这些信息的获取并不容易。随着金融互联网化所产生的大量数据，给我们提供了新的方向，技术的发展也使得挖掘这些数据更深层的价值成为可能。特征工程作为风控建模中处理和分析数据的重要部分，基于业务和技术，利用数据与信用的关联度，创造大量刻画用户风险的特征，从而提升风控模型的预测能力，使其能更有效地应用于金融信贷场景。

3．特征提取的主要方法

根据构建特征的数据属性和构建方法的不同，可将特征大致分为两类。一类是基于业务逻辑的业务特征，另一类是基于数学变换、算法衍生、特征交叉与组合等无实际业务逻辑支撑的非业务特征。

3.1业务特征

业务特征来源于实际业务场景中的数据，通过这些数据往往可以构造出大量的反应业务特点的特征。本文将常见的业务特征分为基本属性特征、基于详单数据的特征和关联信息特征三大类。

3.1.1基本属性特征

基本属性特征主要是对研究对象固有的性质和特点的描述，主要涉及身份信息、教育信息、工作信息等，基于这类记录类信息通常解析其内容衍生出可用于量化描述或分类的特征，例如：

3.1.2基于详单数据的特征

这类数据的分析，首先是基本特征，而后统计和复杂特征层层递进，依据时间和空间的角度构造各种统计量，反应出研究对象的行为内容和稳定性。

3.1.3关联信息特征

关联信息主要是通过社交数据建立人与人之间的联系，借助知识图谱的方法，对群体或节点的关联路径深度、关系类型、关系权重、关系密集度、关联节点属性等指标进行计算提取，将复杂的关系网络可视化。

3.2非业务特征

基于构造的业务特征进行数学变换、算法衍生、特征交叉与组合，衍生出具有新的含义的特征和更利于模型计算，从而提升模型的预测能力。本文根据衍生前后特征数量的变化将衍生方法分为1-to-1特征衍生、1-to-N特征衍生和N-to-N特征衍生：

3.2.1 1-to-1特征衍生

1-to-1衍生方法指对单个特征进行处理输出单个新特征，主要方法有单变量函数变换、顺序特征、缺失特征、分箱特征和WOE转换特征。

1)单变量的函数变换，属于一种数学变换。常用的变换函数有：

绝对值变换

平方、立方变换

对数变换

指数变换

倒数变换

但是，单变量的函数变换不适用于决策树模型，决策树模型在处理x、|x|和log(x)之间没有差异。

2)顺序特征主要应用于对连续型变量的处理，按照一定顺序对变量值进行排序，将其排序位置作为构造变量的取值。其优势在于处理后的特征具有鲁棒性，不受极端值影响，例如一组收入数据为(2000,2500,3000,4000,50000)，对应的顺序特征为(1,2,3,4,5)。

3)缺失特征主要是对单个样本数据在所有特征上的缺失值统计，可理解为对用户信息完备度的统计，需注意的是若该值过大或大部分重要特征的值缺失则需要进行特殊处理，由于缺失值过多导致样本信息的大量缺失，通常考虑删掉该条记录。

4)分箱主要应用于对连续变量的离散化和多分类值离散变量的合并。离散化后的特征对异常数据有较强的鲁棒性，不易受极端值的影响；且能避免特征中无意义的波动对模型造成的影响，模型会更稳定。分箱方法可分为无监督和有监督两大类，主要的无监督分箱法有等距划分和等频划分，有监督分箱法有卡方分箱。

a)等距划分：将变量的取值范围分为k等份，每一份为一箱。

b)等频划分：将变量的观测值个数分为k份，使得每份包含大致相同的实例数量。

使用python实现等距和等频分箱如下：

但是这两种做法都忽略了实例所属的类型，实例落在正确区间里的偶然性很大。

c) 卡方分箱：以卡方检验为核心思想，将需要离散化的特征实例进行排序，每一个实例属于一个区间，通过计算每一对相邻区间的卡方值并将其与设定的阈值进行比较，若所得卡方值小于阈值则说明这两个区间具有非常相似的类分布，可以进行合并；反之，则不能合并。

卡方统计量的计算公式如下：

5)WOE转换是一种有监督的编码方式，将预测类别的集中度的属性作为编码的数值。通俗来讲就是特征取某个值的时候对违约比例的一种影响。

WOE的计算公式如下：

其中，Bi是第i组坏客户数量，BT是整体坏客户数量，Gi是第i组好客户数量，GT是整体好客户数量。

从公式来看，WOE反应的是特征每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异，从而可以直观的认为WOE蕴含了特征取值对于目标变量（违约概率）的影响。WOE的优势在于将特征的取值规范到相近的尺度上，且其值具有业务含义。

3.2.2 1-to-N特征衍生

1-to-N衍生方法指对单个特征进行处理输出多个新特征，主要方法有OneHot编码和均值编码两种，它们都是用于对分类变量进行处理。

1）OneHot编码主要应用于无序的分类变量，由于分类器往往会将此类数据默认为连续的有序变量进行处理，所以不能直接使用。如下图在进模型训练前对职业进行数值编码，但职业为类别变量无大小之分，数值编码后相当于对不同类别加了权重，对模型结果造成影响。

使用python实现OneHot编码如下：

上述数值职业特征在经过OneHot编码后变成3个二元特征，且这些特征互斥，每次只有一个激活，这样做不仅解决了分类器对于无序分类变量的处理，还在一定程度上起到了扩充特征的作用。

2）均值编码是针对高基数的类别特征进行处理，当类别特征的实例值过多时进行OneHot编码容易引起维度灾难，使得模型效果降低。均值编码在贝叶斯的架构下，利用所要预测的目标变量，有监督地确定最适合这个定性特征的编码方式。它最大的特点是基于经验贝叶斯方法利用已知数据估算先验概率和后验概率，通过对先验概率和后验概率做加权平均计算最终的特征编码值。

3.2.3特征N-to-N特征衍生

N-to-N衍生方法指对多个特征进行处理输出多个新特征，主要方法有多项式变换和决策树算法衍生特征。

1）基于多项式的变换，主要是对现有特征进行多项式特征组合形成新的特征矩阵，形如，对X=(x1,x2)进行2阶变换，输出结果为：(1,x1,x2,x1^2,x1*x2,x2^2)，常用于线性模型中达到非线性的效果。例如下图中，在拟合中加入非线性项的拟合效果更好，但要注意多项式的阶数，以防出现过拟合。

2）决策树算法衍生特征，在决策树的系列算法中，每个样本都会落入一个叶子结点上，将叶子结点作为新的特征用于训练模型，该方法源于facebook于2014年提出的应用于广告推荐算法的GBDT+LR模型。树模型本身并不能产生特征，但可以利用其算法的特性产生特征组合。该算法在一定程度上弥补了人工组合特征费时费力的缺陷。

4.特征选择的方法

引用自吴军《数学之美》上的一句话：一个正确的数学模型应当在形式上是简单的。我们希望能在构造的特征中选出对目标变量有更好解释的特征，使得模型的泛化能力更强，所以特征选择的目标大致如下：

1.提高预测的准确性；

2.构造更快，消耗更低的预测模型；

3.能够对模型有更好的理解和解释。

特征选择在理论上有三种方法：过滤法、包装法和嵌入法。

1.过滤法：按照发散性或者相关性对各个特征进行评分，设定阈值，选择特征。

2.包装法：根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

3.嵌入法：先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

下面简单介绍这三种方法对应的实践特征选择方法：

4.1 过滤法特征选择

IV值衡量的是某一个变量的信息量。

其中，Bi是第i组坏客户数量，BT是整体坏客户数量，Gi是第i组好客户数量，GT是整体好客户数量。

从公式来看，相当于是特征WOE值的一个加权求和，其值的大小决定了特征对于目标变量的影响程度。仅适用于目标变量为二分类的分类问题，其值越大表示该特征和目标变量的关联度越高。

IV值常用的阈值有:

4.2 包装法特征选择

逐步回归的基本思想是：将变量一个一个引入，每引入一个变量时，要对已选入的变量进行逐个检验。当原引入的变量由于后面变量的引入而变得不再显著时，将其剔除。这个过程反复进行，直到既无显著的变量选入方程，也无不显著自变量从回归方程中剔除为止。逐步回归选择特征在传统风控建模中使用广泛，但在数据维度很大的时候使用较为复杂，时间成本高。

4.3 嵌入法特征选择

1）正则项特征选择：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验，若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合。

2）树模型特征选择：树模型的学习算法采用启发式方法，以信息增益/信息增益比/基尼指数等指标作为选择特征的准则，递归地选择最优特征。RF、GBDT和XGBoost等算法均可输出特征重要性得分，在实际应用中，通常边调整模型边选择特征，不断缩小特征集合提升模型训练效果。

写在最后的话

特征工程是一场基于业务和技术的头脑风暴+CPU高速计算的持久战，没有一种方法或技巧能够一蹴而就地得到最好的效果，依然需要在面对具体问题时具体分析，不断尝试各种可能，才能得到更好的结果。另外，文中的许多方法还有进一步的探索空间，例如，均值编码如何处理测试集中出现新的实例值；树模型叶子结点的可解释性等。

5361 次浏览