官术网_书友最值得收藏!

2.3.4 變量篩選

傳統的評分卡模型通常只能容納10~15個變量,這是因為過多的變量會在線性模型中相互影響,降低每個變量權重的置信度,并且加重后期模型維護的負擔。因此,需要一個變量篩選的環節,找出一個客戶的若干個最具有代表性的特征。變量篩選通常從穩定性、信息值、相關性、解釋性四個方面考慮。

(1)穩定性

穩定性是評分卡入模變量需要考慮的首要條件,因為只有穩定的模型才能給業務人員的風險決策提供可靠的量化指標,穩定性通常利用群體穩定度指標(Population Stability Index,PSI)來評估。PSI描述的是不同條件下樣本分布的差異,計算公式如下:

其中n為區間數,Bi為基準組樣本在第i區間內占比,Ci為對照組樣本在第i區間內占比。一般而言,小于0.1說明變量穩定性高,0.1~0.25說明變量穩定性一般,0.25以上說明變量穩定性低。

以捷信客戶“外部評分”指標為例,計算6個月前后貸款申請客群該指標的PSI,其中6個月前客群作為基準組等頻劃分為10個區間,6個月后客群作為對照組,將最后一列求和得到PSI<0.1,說明該指標較為穩定,如表2-7所示。

表2-7 捷信客戶“外部評分”指標PSI

(2)信息值

信息值(Information Value,IV)是評分卡模型中衡量變量重要性的指標。通常來說,小于0.02說明變量無預測能力,0.02~0.1說明變量具有弱預測能力,0.1~0.3說明變量具有中預測能力,0.3以上說明變量具有強預測能力。IV的計算基于證據權重(Weight of Evidence,WOE),WOE衡量了一個變量各個分箱區間內逾期樣本的分布情況,絕對值越大說明該區間內逾期樣本和正常樣本的區隔程度越高。第i個區間WOE的計算公式如下:

其中Bi是該區間內的逾期樣本數,BT是總的逾期樣本數,Gi是該區間內的正常樣本數,GT是總的正常樣本數。

對于變量的IV,其實是該變量各個區間WOE的加權和,計算公式如下:

其中n是該變量的分箱區間總數。

我們仍然以捷信客戶“外部評分”指標為例,計算其關于逾期標簽的WOE和IV,其中缺失值單獨作為一個區間,其余等頻劃分為10個區間,各個區間的好壞樣本數及WOE值如表2-8所示。

表2-8 捷信客戶“外部評分”指標WOE

將表2-8中各個區間WOE值代入公式(2-8),計算“外部評分”的IV值為0.3064,說明該指標具有較強的預測能力。

(3)相關性

變量的相關性包括單變量之間的相關性(Correlation)和多變量之間的共線性(Multicollinearity)。相關性是線性模型中需要注意的問題,因為變量之間過高的相關性會影響對應權重預測的置信區間,進而導致權重置信度下降。這里的相關性檢驗利用皮爾遜相關系數(Pearson Correlation Coefficient)構造相關性矩陣,找出相互關聯的變量組。計算變量X和Y之間相關系數的計算公式如下:

其中μX是變量X的平均值,σX是變量X的標準差,μY是變量Y的平均值,σY是變量Y的標準差。相關系數落在[-1,1]的區間內,絕對值越大說明相關性越強,絕對值為1說明兩個變量中的點都落在一條直線上,絕對值為0說明兩個變量之間沒有線性關系。

共線性是對相關性的進一步補充,其衡量的是一個變量與一組變量之間的線性關系,這里我們會用到方差膨脹系數(Variance Inflation Factor,VIF)。VIF解釋了變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比,VIF越大說明共線性越嚴重,通常大于10可以認為共線性較強。VIF的計算公式如下:

其中Ri2是第i個變量作為因變量與其他變量回歸的確定系數。

(4)解釋性

在最終進入模型訓練之前,還需要檢查每個入模變量的解釋性。這里要求變量WOE的分布具有一定的單調性,說明逾期率在每個區間內呈現遞增或者遞減的趨勢,方便后期給出客戶信用評分的減分原因和優化意見。如果重要變量WOE不滿足單調性,可以嘗試合并相鄰的區間重新計算WOE;如果調整區間后變量的單調性依然難以保證,則只能將該變量篩除。

在捷信客戶貸款申請樣本中,計算“外部評分”指標各個區間的WOE并畫圖,觀察可得該變量具有較好的單調性,隨著“外部評分”的增大,客群的逾期率逐步降低,如圖2-3所示。

圖2-3 捷信客戶“外部評分”指標WOE分布

對于捷信客戶樣本中的另一個指標“貸款年費”,雖然IV值較高,但是WOE分布的單調性較差,客群的逾期率隨著“貸款年費”先降低再升高,違背指標解釋性的要求,所以從入模變量中剔除。該變量的WOE如圖2-4所示。

圖2-4 捷信客戶“貸款年費”指標WOE分布

主站蜘蛛池模板: 汝州市| 大化| 瑞安市| 隆昌县| 商河县| 清流县| 陇南市| 福安市| 白银市| 建宁县| 松阳县| 阿克陶县| 宿州市| 玉溪市| 高碑店市| 三台县| 宜川县| 喀什市| 蒙城县| 东方市| 红河县| 手游| 阿巴嘎旗| 柳河县| 桐柏县| 大悟县| 南开区| 新闻| 闻喜县| 鹤岗市| 浮山县| 淳化县| 开阳县| 江北区| 开封市| 台州市| 景东| 壤塘县| 来安县| 屏东市| 汕尾市|