- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 802字
- 2021-04-02 09:32:53
2.2.3 熵權法
專家調查權重法還是更多依賴于專家團隊的主觀意見,這就可能造成給出的定性指標有可能脫離于當前業務的實際情況而存在的問題。為了杜絕這種經驗主義,更為量化的熵權法(Entropy Weight Method)被引入風險管理的場景中來。
在介紹熵權法之前,我們需要先了解下熵(Entropy)的概念。熵最早來自于熱力學,是衡量一個體系中混亂程度的指標,熵越大則說明這個體系越混亂。信息熵(Information Entropy)則借鑒了這個概念,用來描述一個事件所包含信息量的期望。如果一個事件中的某種可能情況發生概率過大,則這個事件的整體離散程度較小,即平均信息量較小。信息熵的計算公式如下:

其中p(x)代表事件X中每個可能情況x發生的概率,并且規定0 ln(0)=0。
根據信息熵的定義,可以利用熵值來確定某個指標的權重,熵值越小則說明這個指標的信息量越大,對于綜合評價的影響也越大。如果某個指標的所有值相同,則對于綜合評價沒有任何影響。熵權法的計算步驟如下所示。
(1)數據標準化
首先要對各個指標進行標準化處理,目的是去除不同指標量綱對于權重計算的影響。數據標準化常見的方法有最大最小標準化和Zscore標準化。
假設第i個客戶的第j個指標為xij,標準化后為x'ij,則最大最小標準化的計算公式如下:

Zscore標準化的計算公式如下:

其中代表所有客戶第j個指標的平均值,σ(xj)代表所有客戶第j個指標的標準差。
(2)計算各指標信息熵
根據信息熵的公式,每個指標的信息熵計算公式如下:

其中n為全體客戶數,為p第j個指標下第i個樣本所占比重。
(3)確定各指標權重
基于信息熵,各指標的權重計算公式如下:

其中m為指標總個數。
我們以Kaggle社區上捷信(Home Credit)的貸款申請數據為例,幫助大家更好地理解熵權法。有10位客戶申請節點的10個指標,如表2-2所示。
表2-2 捷信客戶樣本申請節點指標

利用公式(2-2)進行標準化后,代入公式(2-4)計算出10個指標的信息熵,如表2-3所示。
表2-3 捷信客戶樣本指標信息熵

將信息熵代入公式(2-5)計算出10個指標的權重,如表2-4所示。
表2-4 捷信客戶樣本指標權重
