書名: 智能風(fēng)控:Python金融風(fēng)險管理與評分卡建模作者名: 梅子行 毛鑫宇本章字?jǐn)?shù): 641字更新時間: 2020-06-02 18:29:19
2.3.4 樣本選擇
樣本選擇對模型的結(jié)果影響非常大。為得到較好的模型表現(xiàn),建模樣本通常需要滿足以下原則。
●代表性(Representativeness):樣本必須能充分代表總體。只有這樣,從樣本中提煉的數(shù)理關(guān)系才能有效預(yù)測未來真實場景的數(shù)理關(guān)系。例如,消費金融場景客群可能與小額現(xiàn)金貸場景下的客群有所差異,因此不能直接使用不同客群作為樣本來建模。
●充分性(Adequacy):樣本集的數(shù)量必須滿足一定數(shù)量要求。當(dāng)樣本量較小時,無法滿足統(tǒng)計的顯著性(Statistical Significance)要求,即置信度(Confidence Level)較低。評分卡建模通常要求正負樣本的數(shù)量都不少于1500個。隨著樣本量增加,模型的效果也會有顯著提升。而神經(jīng)網(wǎng)絡(luò)等多參數(shù)模型通常要求樣本量在50萬個以上,否則很難保證模型的穩(wěn)定性。
●時效性(Timeliness):在滿足樣本量充足的前提下,通常要求樣本的觀測期與實際應(yīng)用時間節(jié)點越接近越好。銀行等客群穩(wěn)定的場景,觀察期可長達一年半至兩年,然而在許多平臺,很難保證樣本都處在穩(wěn)定的較近期的時間點上。此時可以通過遷移學(xué)習(xí)(Transfer Learning)等方法對樣本進行挑選或?qū)ψ兞窟M行映射,使得早期樣本與近期樣本有相似的數(shù)據(jù)分布。
●排除性(Exclusions):雖然建模樣本需要具有代表整體的能力,但某些法律規(guī)定不滿足特定場景貸款需求的用戶不應(yīng)該作為樣本。例如,針對行為評分卡用戶,無還款表現(xiàn)用戶或欺詐用戶等都不應(yīng)放入當(dāng)前樣本集。
樣本的選擇通常會嚴(yán)格遵循上述標(biāo)準(zhǔn)。業(yè)務(wù)開展早期,通常很難滿足上述所有要求。當(dāng)有少量樣本積累時,時效性和排除性通常較容易滿足。而充分性和代表性則需要大量的數(shù)據(jù)支持,并使用拒絕推斷等方法,才可以近似地得到保障。