1.2.2 隱私脫敏
隱私脫敏通過采用有失真且不可逆的方法對隱私信息進行保護,使脫敏后的信息無法與數據主體關聯起來。隱私脫敏包括但不限于現有的對數據中包含的隱私信息進行泛化(Generalization)、抑制(Suppression)、解耦(Anatomization)、置換(Permutation)、擾動(Perturbation)等方法,未來還需要在隱私脫敏方面進行新的理論創新。隱私脫敏又常被稱為隱私化或匿名化。
1.泛化
泛化是將一類屬性中的特定值用一個更寬泛的值代替。比如一個人年齡為25歲,可以將其泛化為20~30歲;一個人的職業是程序員或者律師,可以將其泛化為白領(腦力勞動者)。
2.抑制
抑制是指發布信息時將某個屬性、屬性的值或者屬性值的一部分以*代替。比如將手機號碼表示為135****3675,信用卡號碼表示為4392********。
3.解耦和置換
解耦和置換都是去除準標識符和敏感屬性間的關聯性,而不改變準標識符或敏感屬性的值。解耦是將原始記錄表分為兩個表發布,一個表發布準標識符屬性,另一個表發布敏感屬性,兩個表只有一個相同的GroupID作為共有屬性。置換是把一個數據記錄集合劃分成組,在組內對敏感值進行置換,從而打亂準標識符和敏感屬性間的對應關系。
4.擾動
擾動的主要思想是用合成的數據值取代原始的數據值。擾動后統計信息不發生顯著改變,而且改變后的數據與真實數據主體失去關聯性。擾動的主要機制包括加噪、數據交換、合成數據生成等。加噪主要用于數值型數據的隱私保護,從一個特定分布的噪聲中生成噪聲值添加到敏感值上。數據交換的主要思想是交換個人數據記錄間敏感屬性的值,可以保持統計分析的低階頻數統計或邊沿分布。合成數據生成的主要思想是依據數據構建一個統計模型,然后從模型上采樣取代原始數據。擾動因為簡單、有效且可保持統計信息的特性,所以在統計發布控制中已經有很長的應用歷史[11]。
在上述脫敏操作的基礎上,發展出了一系列隱私脫敏模型和方法,包括k-匿名[12]、l-多樣性[13]、t-接近性[14]、差分隱私[15]、本地化差分隱私[16]等。在后續章節中會對其加以介紹。