官术网_书友最值得收藏!

2.3.4 樣本選擇

樣本選擇對模型的結(jié)果影響非常大。為得到較好的模型表現(xiàn),建模樣本通常需要滿足以下原則。

代表性(Representativeness):樣本必須能充分代表總體。只有這樣,從樣本中提煉的數(shù)理關(guān)系才能有效預(yù)測未來真實場景的數(shù)理關(guān)系。例如,消費金融場景客群可能與小額現(xiàn)金貸場景下的客群有所差異,因此不能直接使用不同客群作為樣本來建模。

充分性(Adequacy):樣本集的數(shù)量必須滿足一定數(shù)量要求。當(dāng)樣本量較小時,無法滿足統(tǒng)計的顯著性(Statistical Significance)要求,即置信度(Confidence Level)較低。評分卡建模通常要求正負樣本的數(shù)量都不少于1500個。隨著樣本量增加,模型的效果也會有顯著提升。而神經(jīng)網(wǎng)絡(luò)等多參數(shù)模型通常要求樣本量在50萬個以上,否則很難保證模型的穩(wěn)定性。

時效性(Timeliness):在滿足樣本量充足的前提下,通常要求樣本的觀測期與實際應(yīng)用時間節(jié)點越接近越好。銀行等客群穩(wěn)定的場景,觀察期可長達一年半至兩年,然而在許多平臺,很難保證樣本都處在穩(wěn)定的較近期的時間點上。此時可以通過遷移學(xué)習(xí)(Transfer Learning)等方法對樣本進行挑選或?qū)ψ兞窟M行映射,使得早期樣本與近期樣本有相似的數(shù)據(jù)分布。

排除性(Exclusions):雖然建模樣本需要具有代表整體的能力,但某些法律規(guī)定不滿足特定場景貸款需求的用戶不應(yīng)該作為樣本。例如,針對行為評分卡用戶,無還款表現(xiàn)用戶或欺詐用戶等都不應(yīng)放入當(dāng)前樣本集。

樣本的選擇通常會嚴(yán)格遵循上述標(biāo)準(zhǔn)。業(yè)務(wù)開展早期,通常很難滿足上述所有要求。當(dāng)有少量樣本積累時,時效性和排除性通常較容易滿足。而充分性和代表性則需要大量的數(shù)據(jù)支持,并使用拒絕推斷等方法,才可以近似地得到保障。

主站蜘蛛池模板: 云梦县| 通河县| 微山县| 新宁县| 临安市| 哈巴河县| 柳州市| 宜宾市| 永吉县| 贵港市| 西盟| 亳州市| 沙雅县| 五指山市| 那曲县| 平遥县| 从化市| 泽普县| 龙陵县| 萨迦县| 瓦房店市| 卢湾区| 繁昌县| 禹城市| 衡东县| 揭东县| 高青县| 祁阳县| 平阳县| 若羌县| 东阳市| 巴彦淖尔市| 婺源县| 安徽省| 泸西县| 诏安县| 通州区| 军事| 桂东县| 阿克| 衡东县|