官术网_书友最值得收藏!

2.3.4 變量篩選

傳統(tǒng)的評分卡模型通常只能容納10~15個變量,這是因為過多的變量會在線性模型中相互影響,降低每個變量權(quán)重的置信度,并且加重后期模型維護(hù)的負(fù)擔(dān)。因此,需要一個變量篩選的環(huán)節(jié),找出一個客戶的若干個最具有代表性的特征。變量篩選通常從穩(wěn)定性、信息值、相關(guān)性、解釋性四個方面考慮。

(1)穩(wěn)定性

穩(wěn)定性是評分卡入模變量需要考慮的首要條件,因為只有穩(wěn)定的模型才能給業(yè)務(wù)人員的風(fēng)險決策提供可靠的量化指標(biāo),穩(wěn)定性通常利用群體穩(wěn)定度指標(biāo)(Population Stability Index,PSI)來評估。PSI描述的是不同條件下樣本分布的差異,計算公式如下:

其中n為區(qū)間數(shù),Bi為基準(zhǔn)組樣本在第i區(qū)間內(nèi)占比,Ci為對照組樣本在第i區(qū)間內(nèi)占比。一般而言,小于0.1說明變量穩(wěn)定性高,0.1~0.25說明變量穩(wěn)定性一般,0.25以上說明變量穩(wěn)定性低。

以捷信客戶“外部評分”指標(biāo)為例,計算6個月前后貸款申請客群該指標(biāo)的PSI,其中6個月前客群作為基準(zhǔn)組等頻劃分為10個區(qū)間,6個月后客群作為對照組,將最后一列求和得到PSI<0.1,說明該指標(biāo)較為穩(wěn)定,如表2-7所示。

表2-7 捷信客戶“外部評分”指標(biāo)PSI

(2)信息值

信息值(Information Value,IV)是評分卡模型中衡量變量重要性的指標(biāo)。通常來說,小于0.02說明變量無預(yù)測能力,0.02~0.1說明變量具有弱預(yù)測能力,0.1~0.3說明變量具有中預(yù)測能力,0.3以上說明變量具有強(qiáng)預(yù)測能力。IV的計算基于證據(jù)權(quán)重(Weight of Evidence,WOE),WOE衡量了一個變量各個分箱區(qū)間內(nèi)逾期樣本的分布情況,絕對值越大說明該區(qū)間內(nèi)逾期樣本和正常樣本的區(qū)隔程度越高。第i個區(qū)間WOE的計算公式如下:

其中Bi是該區(qū)間內(nèi)的逾期樣本數(shù),BT是總的逾期樣本數(shù),Gi是該區(qū)間內(nèi)的正常樣本數(shù),GT是總的正常樣本數(shù)。

對于變量的IV,其實是該變量各個區(qū)間WOE的加權(quán)和,計算公式如下:

其中n是該變量的分箱區(qū)間總數(shù)。

我們?nèi)匀灰越菪趴蛻簟巴獠吭u分”指標(biāo)為例,計算其關(guān)于逾期標(biāo)簽的WOE和IV,其中缺失值單獨作為一個區(qū)間,其余等頻劃分為10個區(qū)間,各個區(qū)間的好壞樣本數(shù)及WOE值如表2-8所示。

表2-8 捷信客戶“外部評分”指標(biāo)WOE

將表2-8中各個區(qū)間WOE值代入公式(2-8),計算“外部評分”的IV值為0.3064,說明該指標(biāo)具有較強(qiáng)的預(yù)測能力。

(3)相關(guān)性

變量的相關(guān)性包括單變量之間的相關(guān)性(Correlation)和多變量之間的共線性(Multicollinearity)。相關(guān)性是線性模型中需要注意的問題,因為變量之間過高的相關(guān)性會影響對應(yīng)權(quán)重預(yù)測的置信區(qū)間,進(jìn)而導(dǎo)致權(quán)重置信度下降。這里的相關(guān)性檢驗利用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)構(gòu)造相關(guān)性矩陣,找出相互關(guān)聯(lián)的變量組。計算變量X和Y之間相關(guān)系數(shù)的計算公式如下:

其中μX是變量X的平均值,σX是變量X的標(biāo)準(zhǔn)差,μY是變量Y的平均值,σY是變量Y的標(biāo)準(zhǔn)差。相關(guān)系數(shù)落在[-1,1]的區(qū)間內(nèi),絕對值越大說明相關(guān)性越強(qiáng),絕對值為1說明兩個變量中的點都落在一條直線上,絕對值為0說明兩個變量之間沒有線性關(guān)系。

共線性是對相關(guān)性的進(jìn)一步補(bǔ)充,其衡量的是一個變量與一組變量之間的線性關(guān)系,這里我們會用到方差膨脹系數(shù)(Variance Inflation Factor,VIF)。VIF解釋了變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比,VIF越大說明共線性越嚴(yán)重,通常大于10可以認(rèn)為共線性較強(qiáng)。VIF的計算公式如下:

其中Ri2是第i個變量作為因變量與其他變量回歸的確定系數(shù)。

(4)解釋性

在最終進(jìn)入模型訓(xùn)練之前,還需要檢查每個入模變量的解釋性。這里要求變量WOE的分布具有一定的單調(diào)性,說明逾期率在每個區(qū)間內(nèi)呈現(xiàn)遞增或者遞減的趨勢,方便后期給出客戶信用評分的減分原因和優(yōu)化意見。如果重要變量WOE不滿足單調(diào)性,可以嘗試合并相鄰的區(qū)間重新計算WOE;如果調(diào)整區(qū)間后變量的單調(diào)性依然難以保證,則只能將該變量篩除。

在捷信客戶貸款申請樣本中,計算“外部評分”指標(biāo)各個區(qū)間的WOE并畫圖,觀察可得該變量具有較好的單調(diào)性,隨著“外部評分”的增大,客群的逾期率逐步降低,如圖2-3所示。

圖2-3 捷信客戶“外部評分”指標(biāo)WOE分布

對于捷信客戶樣本中的另一個指標(biāo)“貸款年費”,雖然IV值較高,但是WOE分布的單調(diào)性較差,客群的逾期率隨著“貸款年費”先降低再升高,違背指標(biāo)解釋性的要求,所以從入模變量中剔除。該變量的WOE如圖2-4所示。

圖2-4 捷信客戶“貸款年費”指標(biāo)WOE分布

主站蜘蛛池模板: 三亚市| 页游| 郸城县| 乐都县| 个旧市| 宣威市| 和政县| 桂阳县| 湖口县| 望都县| 禄丰县| 嵊泗县| 巴楚县| 孝昌县| 玉屏| 建宁县| 新宾| 莆田市| 麻栗坡县| 宜昌市| 漳平市| 同心县| 龙游县| 涞水县| 西华县| 乐昌市| 阜康市| 肇源县| 无棣县| 高台县| 棋牌| 乳源| 称多县| 巴林右旗| 聊城市| 个旧市| 内乡县| 会昌县| 当雄县| 四会市| 苏州市|