- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 883字
- 2021-04-02 09:32:58
3.2.3 冠軍挑戰者
有了規則和模型,如何去驗證風控策略的有效性呢?風控人員可以通過回溯規則和模型的結果,在歷史數據上離線計算該策略下的逾期率和核準率。但是離線回溯的方式通常有三個問題。
第一,歷史上被拒絕的客戶的實際貸后表現是無法觀察的,這就造成了測算的逾期率存在一定偏差。
第二,機構的風控策略中通常會涉及外部數據源,這些外部數據源可能存在無法回溯的問題,導致無法在歷史數據上完全復現當前的風控策略。
第三,由于大環境或者其他策略的影響,歷史客群和當前客群存在一定的差異,歷史數據上回溯的效果并不能完全代表當前線上的實際情況。因此,支持線上測試是決策引擎中比較重要的功能,而線上測試就離不開“冠軍挑戰者”技術。
“冠軍挑戰者”也被稱為A/B測試,目的是比較多個實驗組策略和當前對照組策略的線上效果,從而找出其中最優的策略。風控人員首先通過離線回溯的方式制定幾套實驗策略,然后通過決策引擎中的“冠軍挑戰者”模塊部署相應的規則和模型,通過觀察一段時間內各個實驗組的逾期率和核準率,來決定是否替換當前線上的對照組。“冠軍挑戰者”背后有如下幾個關鍵的技術點需要保障。
1)樣本隨機性。實驗組和對照組中的樣本劃分需要保證隨機性,盡可能保證實驗組和對照組都落在同一個時間段和產品線內,排除客群變化和營銷活動對于策略效果的影響。
2)樣本互斥性。實驗組和對照組中的樣本必須保證嚴格互斥,也就是說不存在樣本既在實驗組又在對照組中的情況。對于兩個完整的決策樹規則集,這個要求通常比較好實現;但是如果想比較決策樹中節點之間的效果,就要做到每個葉子節點向下劃分的樣本集互斥,這樣才能保證每個實驗組都是獨立的。
3)樣本顯著性。實驗組和對照組中的樣本數量不宜過少,如果樣本太少的話會造成策略效果不顯著,無法完全相信策略的線上效果。為了獲得樣本的顯著性,風控人員在制定實驗的時候需要充分考慮每天的流量,確定每個實驗組的樣本量和實驗運行時間,保證實驗結果的有效性。
4)實驗完整性。如果只是在策略集中的某幾個節點新增實驗組的話,還要保證樣本流入節點前和流出節點后策略的完整性,這樣才能觀察到實驗前后整個策略集的線上效果。