游戏开发自学

書名：智能風(fēng)控：Python金融風(fēng)險管理與評分卡建模
作者名：梅子行毛鑫宇
本章字?jǐn)?shù)： 641字
更新時間： 2020-06-02 18:29:19

2.3.4 樣本選擇

樣本選擇對模型的結(jié)果影響非常大。為得到較好的模型表現(xiàn)，建模樣本通常需要滿足以下原則。

●代表性（Representativeness）：樣本必須能充分代表總體。只有這樣，從樣本中提煉的數(shù)理關(guān)系才能有效預(yù)測未來真實場景的數(shù)理關(guān)系。例如，消費金融場景客群可能與小額現(xiàn)金貸場景下的客群有所差異，因此不能直接使用不同客群作為樣本來建模。

●充分性（Adequacy）：樣本集的數(shù)量必須滿足一定數(shù)量要求。當(dāng)樣本量較小時，無法滿足統(tǒng)計的顯著性（Statistical Significance）要求，即置信度（Confidence Level）較低。評分卡建模通常要求正負樣本的數(shù)量都不少于1500個。隨著樣本量增加，模型的效果也會有顯著提升。而神經(jīng)網(wǎng)絡(luò)等多參數(shù)模型通常要求樣本量在50萬個以上，否則很難保證模型的穩(wěn)定性。

●時效性（Timeliness）：在滿足樣本量充足的前提下，通常要求樣本的觀測期與實際應(yīng)用時間節(jié)點越接近越好。銀行等客群穩(wěn)定的場景，觀察期可長達一年半至兩年，然而在許多平臺，很難保證樣本都處在穩(wěn)定的較近期的時間點上。此時可以通過遷移學(xué)習(xí)（Transfer Learning）等方法對樣本進行挑選或?qū)ψ兞窟M行映射，使得早期樣本與近期樣本有相似的數(shù)據(jù)分布。

●排除性（Exclusions）：雖然建模樣本需要具有代表整體的能力，但某些法律規(guī)定不滿足特定場景貸款需求的用戶不應(yīng)該作為樣本。例如，針對行為評分卡用戶，無還款表現(xiàn)用戶或欺詐用戶等都不應(yīng)放入當(dāng)前樣本集。

樣本的選擇通常會嚴(yán)格遵循上述標(biāo)準(zhǔn)。業(yè)務(wù)開展早期，通常很難滿足上述所有要求。當(dāng)有少量樣本積累時，時效性和排除性通常較容易滿足。而充分性和代表性則需要大量的數(shù)據(jù)支持，并使用拒絕推斷等方法，才可以近似地得到保障。

官术网_书友最值得收藏!

智能風(fēng)控：Python金融風(fēng)險管理與評分卡建模

2.3.4 樣本選擇