- 征信大數據:理論與實踐(中國金融四十人論壇書系)
- 姚前 謝華美 劉松靈 劉新海
- 2640字
- 2021-04-25 16:45:19
三、以數據挖掘驅動的異常查詢實時監測模型
如圖1所示,根據數據挖掘算法,異常查詢實時監測模型包含6個步驟。

圖1 異常查詢實時監測模型
(1)業務理解
通過業務調研、違規查詢樣本分析及數據探索后發現,大量違規行為伴隨查詢量突增。典型案例如下:2015年3月某銀行違規查詢了3.2萬份個人信用報告。從該用戶的歷史查詢軌跡來看,原本平穩的查詢頻率在事發月份出現了異常突增,足以引起高度關注。類似的情況在多個案例中反復出現。因此,本次數據挖掘的目標定位于對用戶月查詢量進行預測,通過比對預測查詢量與實際查詢量的差異,判別用戶的異常風險。
(2)質量檢查
檢查查詢記錄的各字段值是否符合業務邏輯,并清理臟數據,保證后續的數據分析得出可靠的結論。
(3)數據準備
本次數據挖掘的樣本選用個人征信系統最新36個月全部查詢記錄,樣本數為9.0億條。經過數據預處理后,按月統計每個用戶的查詢總量,并形成查詢量矩陣R。

查詢量矩陣R共有m個月度觀察點,n個查詢用戶,其中,aij (1 ≤i ≤ n,1 ≤ j ≤ m)表示第i個用戶在第j個月份的查詢量。
(4)數據分析
月查詢量矩陣是一個稀疏矩陣,矩陣內存在大量為0的值,表明只有少量用戶連續每個月都有查詢,而大量用戶的查詢是時斷時續的,因此有必要對查詢連續性進行進一步的分析。
①查詢休眠時長分析
分析用戶最后一次查詢距離當前日期的天數,定義為當前休眠天數T,統計結果顯示:average(T)=197天,min(T)=0天,max(T)= 973天。
結合表1與圖2可以看出,50%和65%為突變點,T≤84天的用戶達到50%,T≤369天的用戶達65%。也就是說,最近3個月內,50%的用戶至少發生過一次查詢;最近12個月內,65%的用戶至少發生過一次查詢。
表1 用戶睡眠天數分位數


圖2 用戶睡眠天數頻度分析
②休眠重啟行為分析
用戶休眠后又重新查詢的行為特征是什么呢?以月為單位來計量,用戶在自然月內有查詢行為即為當月活躍,否則為休眠。滾動一個月后繼續觀察用戶的活躍狀態。由此分析正常用戶的休眠、重啟特征。
以2015年9月份的數據為例,當前活躍用戶6.7萬人,占比42%。在2015年10月份,上個月6.7萬活躍用戶中,93%的用戶繼續活躍,剩余7%變成睡眠1個月用戶。2015年9月份睡眠1個月用戶0.4萬人,占比3%。在2015年10月份,這0.4萬用戶中,42%的用戶又有了查詢,再次活躍起來,剩余58%的用戶由睡眠1個月用戶變成睡眠2個月用戶,具體見表2。
表2 用戶活躍分析 單位:萬人

從表2可以看出,隨著睡眠時間增長,重啟查詢的可能性越來越低。為了驗證結果的穩定性,依次對每個月的數據進行滾動分析,見表3和圖3。
表3 活躍率滾動分析


圖3 當前用戶一個月后重啟查詢的平均占比
由圖3可看出,3個月、6個月也是與查詢行為高度相關的特征值。睡眠3個月的用戶再次活躍的比例≤11%,睡眠6個月的用戶再次活躍的比例≤6%并趨于平穩。
(5)模型建立
本次查詢量預測目標需對每一個用戶構建預測模型。
①根據用戶特征分組
查詢矩陣中存在大量缺失值,建模前需對缺失值進行補充。為能用最恰當的值補充,需對用戶按照查詢特征進行分組。
根據上文用戶查詢特征數據分析結果,將用戶活躍狀態分為六大類:分別是活躍無斷點、活躍有斷點、新開用戶、次新用戶、當前睡眠戶和歷史睡眠戶,具體見表4。
表4 用戶活躍狀態分類

②用戶月查詢量缺失值補充
以上六大類特征用戶,其查詢量缺失值補充規則見表5。
表5 補充缺失值的規則

③根據波動特征構建模型
原則上,用戶的查詢需求受其所屬機構查詢需求的影響,并保持相同趨勢。用戶所屬機構分為十二大類。分別為:人民銀行、全國性商業銀行、城市商業銀行、農村信用合作社、城市信用合作社、村鎮銀行、政策性銀行、公積金管理中心、財務公司、汽車金融公司、外資銀行、小額貸款公司。
十二大類的機構呈現出4種不同的波動趨勢。分別為平穩型、增長型、小幅跳躍型和周期跳躍型。因此,對用戶的建模算法也遵循以上4類,其對應的預測算法見表6。
表6 查詢量波動特征及對應預測算法

續表

④預測用戶月查詢量
對用戶用修正過的查詢數據,根據用戶所屬組別的選擇預測模型,預測其月度查詢峰值。
a.平穩型
此類機構查詢量每月基本穩定,使用簡單平均算法來預測下個月的查詢量,其計算式為:

其中,Xi (i = 0,…,23)表示用戶最近24個月的實際查詢量,表示下一個月的月度預測值,N為調整系數,Std為24個月查詢量的標準差。
b.增長型
此類機構每月增長趨勢明顯,采用月度差分加權移動平均算法,其計算式為:

其中,Xi (i = 0,…,23)表示用戶最近24個月實際查詢量;表示下一個月的月度預測值;△i (i = 0,…,22)表示每個月與上個月查詢量的差值;N為調整系數;Std為24個月查詢量的標準差;R表示指數權重,取值范圍為(0,1)。
指數權重R的取值規則為:

其中,m為增長型用戶總數;Xi24 表示第i個用戶預測值;Xi j 表示第i個用戶第j個月實際查詢值;r = 0.01,0.02,0.03,…,0.99,每次共計算99次;R的值是min(W)對應的r。
c.小幅跳躍型
此類機構每月的查詢量有一定的波動,但變化幅度很小,采用指數加權移動平均算法,其計算式為:

其中,Xi (i = 0,…,23)表示用戶最近24個月實際查詢量;表示下一個月的月度預測值;N為調整系數;Std為24個月查詢量的標準差;R表示指數權重,取值范圍為(0,1)。
指數權重R的取值規則為:

其中,m為小幅跳躍型用戶總數;表示第i個用戶預測值;Xi j 表示第i個用戶第j個月的實際查詢值;r =0.01,0.02,0.03,…,0.99,每次共計算99次;R的值是min(W)所對應的r。
d.周期跳躍型
此類機構查詢量波動有很強的周期性特征,采用年度差分方法,其計算式為:

其中,Xi (i = 0,…,35)表示用戶最近36個月實際查詢量,表示下一個月的月度預測值,N為調整系數,Std為36個月實際查詢量的標準差。
⑤預測用戶日查詢峰值
月查詢量預測即模型的結果,但為了滿足實時監測的需要,需要將月度預測值推算至日預測峰值,具體換算式為:

其中,Xi (i = 0,…,23)表示用戶最近24個月的實際查詢量,表示下一個月的月度預測值,di 為每個月的日查詢峰值,
表示下一個月預測的日查詢峰值。
(6)模型驗證
利用相對誤差及泰勒不等系數,對4種模型進行驗證,具體見表7。結果表明,該模型應用于個人查詢量預測是可行的。如平穩型模型相對誤差的最大值、次大值和最小值分別為23.71%、23.47%、0.65%,平均精度為84.45%,泰勒不等系數為0.085,模型效果很好。
表7 模型驗證結果

泰勒不等系數計算式為:

其中,n為預測期數,為預測值,Xi 為實際值。
泰勒不等系數的值在0和1之間,當泰勒不等系數等于0時,是最優擬合。
平均相對誤差計算式為:

其中,n為預測期數,為預測值,Xi 為實際值。