- 數據要素安全:新技術、新安全激活新質生產力
- 劉文懋 孟楠 顧奇 陳佛忠 高翔等
- 6542字
- 2025-05-19 16:13:39
1.2?數據安全概述
1.2.1 數據1.0時代的數據安全
在數據1.0時代,數據作為信息的載體,存放在機構的數據庫、文件系統、存儲服務器等位置。此時的數據安全,主要對應的是信息安全的三個屬性:機密性(Confidentiality)、完整性(Integrity)和可用性(Availability)。數據機密性受損的風險主要是數據泄露,數據完整性受損的風險有數據損壞,數據可用性受損的風險有數據污染或拒絕服務等。
數據泄露(data breach)是機構面臨的最大的數據安全風險,特別是機構保存的自身敏感數據和個人數據被攻擊者非授權訪問后,可能會被其竊取。數據泄露的攻擊向量有多種,比如Web安全中的SQL注入造成拖庫、代碼倉庫中的配置文件包含AK/SK(訪問密鑰/秘密密鑰)造成存儲桶泄露、企業內部員工非法窺視系統數據等。暗網市場上售賣的大量敏感數據,以及非法推銷和詐騙活動中犯罪分子所用的個人信息,都是數據泄露直接后果的明證。
數據損壞(data corruption)是指攻擊者未經授權,篡改數據源、文件、網頁等數據,使得業務輸出結果的完整性被破壞。近年來最常見的數據損壞威脅當屬勒索軟件。勒索軟件會尋找系統中重要的用戶文件,如文檔、數據、圖片等,并對其加密,以此勒索用戶支付贖金來獲得解密密鑰。在許多情況下,用戶即便支付贖金也無法解密文件,此時數據的完整性遭到徹底破壞。隨著人工智能的興起,數據篡改已經擴展到對模型參數、結構的篡改,例如使用Deepfake替換源視頻中的人臉,偽造具有政治或恐怖主義影響的視頻;或進行定向的電信詐騙,令人防不勝防。
數據污染(data poisoning)在人工智能算法中比較常見。如果攻擊者給模型提供垃圾數據或惡意數據,算法就可能輸出錯誤的模型,使得整個模型不可用。另外,攻擊者也有可能發動拒絕服務(Denial of Service,DoS)攻擊,在短時間內發起大量的請求,破壞數據服務的正常運行。
這幾種風險常常相伴而生,例如一些勒索軟件團伙在加密文件的同時,也可能竊取這些文件。如果在一定期限內不支付贖金,則不僅用戶無法解密文件,文件還會被發布到暗網。即便用戶已經提前完成文件的備份,對于敏感數據,用戶仍可能被迫支付贖金。
需要說明的是,在數據1.0時代,竊取數據和破壞數據往往是網絡攻擊的最后一環,所以在整個攻擊過程中,攻擊者會大量使用網絡攻擊、社會工程等手段,因而防守者也需要在預防、檢測、響應等環節做好充分的準備。當我們談論數據安全時,很多情況下其實是在處理網絡安全問題,如入侵檢測、用戶行為分析、Web安全等,這都是為了避免攻擊者最終訪問到敏感數據。正因如此,傳統的數據安全往往由企業的網絡安全團隊負責。當然,隨著數據要素時代的到來,數據安全的內涵在向企業業務安全延展,在做好傳統數據安全的同時,安全團隊的職責也在不斷演進,數據要素安全相關的團隊和組織架構也在進行調整。
1.2.2 數據要素安全
為了推動新質生產力的發展,產業與技術升級已刻不容緩。數據要素作為一種新型生產要素,在流通、使用和共享過程中能夠顯著提升其使用價值和交換價值,為各行各業創造大量新業務,提升全社會的整體生產力。數據要素入表也將極大提升企業數字化轉型的速度,推動社會數字經濟的發展。我們已邁入數據要素時代,數據要素時代的數據安全不僅包括傳統的數據安全,還包括數據要素安全。
數據要素安全蘊含了“數據流通安全”,因為數據要素化的必要條件是數據經過流通產生價值,所以其全稱應為“數據要素流通安全”。“數據要素流通安全”與“數據安全”相比,變化在于多了“流通”和“要素”兩個關鍵詞。
先談“流通”。數據流通安全應當關注數據作為信息的載體,在采集、傳輸、存儲、共享、使用和銷毀階段的安全,確保數據的機密性、可用性和完整性,防止第三方未授權的訪問、修改或破壞。雖然數據流通安全也關注信息安全的三個屬性,但與傳統數據安全有所區別。在一個典型的數據流通場景中,數據從數據持有者流到了第三方,此時數據的完整性和可用性是第三方所關注的,以確保這些數據可以被正確且可靠地生產或消費。而在另一些場景中,數據持有者更關注數據的機密性,即數據不能被第三方看見,也就是數據“可用不可見”,這能確保原始的敏感數據不出本地,消除數據持有者的顧慮。
再談“要素”。數據作為生產要素,是新時代新質生產力的輸入資源。確保數據要素安全,就需要在數據生產、消費的過程中,確保價值提升過程合理、合法、合規,各方權益保障公平、公開、公正,技術手段可信、可證、可控。在經濟領域討論數據要素安全,就是希望通過制度、技術體系的建立激發各方積極參與數據生產活動,以最大化經濟價值和社會價值。在此過程中,通過公開透明的法律、制度保障參與方的各項權益,利用各種新技術降低信任成本,構建權益可證明、行為可審計、事件可溯源的數據要素全流程的安全底座。
綜上,數據要素安全或數據要素流通安全的內涵就是在數據流通過程中,既要保證數據作為載體的信息安全,又要保障數據作為生產要素時各參與方的相關權益。
為了保持闡述上的一致,在后續章節中,我們將“數據1.0時代”和“數據要素時代”機構內部的數據自身安全機制稱為“數據安全”或“傳統數據安全”,而將“數據要素時代”在數據流通環節需要關注的前述數據安全流通機制稱為“數據要素安全”。
在數據要素時代,數據作為生產要素,其價值的提升往往需要數據資源持有者對外開放數據,讓數據被第三方使用,其中第三方包括數據加工使用者和數據產品經營者。從機構角色來看,第三方一般跟己方機構有合作關系,或是同單位的不同部門,或是同行業的其他單位,又或是其他行業的業務合作方。由于第三方是業務驅動引入的,這些單位可能是誠實的,也可能是不誠實的,甚至不排除是惡意的,特別是這些單位里可能存在有不當目的的內部員工,或是已攻陷并潛伏在數據流通鏈中的惡意攻擊者。所以,數據要素安全的本質就是在數據要素流通過程中,使所有數據相關行為遵循持有者對數據資源操作的意愿,防止第三方未授權的操作,保證事前安全機制可信任和可證明、事中過程可控和數據可用、事后安全事件可審計和可溯源。
然而無論哪個行業,一旦涉及多方間的數據或計算任務的流通,安全機制就不容易建立。
在數據流轉過程中,參與方的權益必須得到保障。經濟學中的“公地悲劇”概念指出,如果數據資源是公共的,參與方的權益未得到保障,那么很可能數據資源最終產生的價值會銳減,就如過度放牧后沙化的公共場地。因此,數據資產持有權、數據加工使用權和數據產品經營權都應該受到尊重和保護。
但在實踐中,保障相關權益在技術層面頗有挑戰。一方面,數據易于復制,數據資源持有者對數據流轉出去的不可控狀態有天然的擔憂;另一方面,以往的數據安全和網絡安全旨在預防和檢測敏感數據泄露,而非賦能數據流轉,目前尚缺乏成熟高效的技術、流程和架構來支撐數據安全流轉。
當前技術層面的不足造成了多方間的信息不對等,各參與方陷入經典的囚徒困境:己方擔心對方作惡,因而不敢做出最有利于自己的選擇——開放數據,通過數據流通創造業務價值,而是做出了次優選擇——所有人不共享,以避免數據泄露或濫用所造成的安全事件。這就變成了“公地悲劇”的反面——“反公地悲劇”,即產權私有化導致資源得不到充分利用,數據價值同樣無法充分實現。
以醫療體系為例,醫院、衛生健康委員會和疾病預防控制中心之間會共享病例等各種數據,以進行疫情管控或學術研究;而第三方(如保險機構、科研機構)也需要相關的醫療數據做疾病預測或成本精算。因而醫療體系中數據流通的需求是真實且巨大的,但流轉的數據本身高度敏感,不僅涉及個人隱私,還可能危及國家安全,數據在流轉的全生命周期都應得到保護。實際上,有些機構在開放數據后沒有做好相應的安全防護,造成大量公民信息在暗網售賣的嚴重后果。例如,2023年6月,北京市昌平區某生物技術有限公司被發現存在數據泄露的情況,其委托的另一軟件公司研發的“基因外顯子數據分析系統”在測試階段未落實相關的安全措施,導致包含公民信息、技術等數據的泄露,數據總量達19.1GB。在日常業務的數據共享中,更為常見的風險是數據流轉到第三方后,第三方內部的非善意員工未經授權地訪問或操作數據,造成數據外泄、數據投毒或數據篡改等嚴重后果。
事實上,這也是當前數據流通過程中所面臨的最大挑戰。如果不能消除所有參與方對第三方超出合理限度使用數據的相關風險的顧慮,就無法建立真正有效的數據流通業務,也就沒有辦法推動數據要素化,創造更大的價值。
在數據要素時代,探索新的技術路線,幫助眾多機構、企業以最低成本遷移和部署新業務,并采取必要的措施保障數據在流通、使用、共享和銷毀的整個過程中安全可控,是非常有必要的。
1.2.3 數據安全與數據要素安全
如前所述,數據安全和數據要素安全之間存在較多差異。總體而言,數據安全的目標是在有限域中“抵御惡意攻擊者”,數據要素安全的目標則是在去中心化的環境中“建立多方信任”。下面讓我們從多個角度來做一些具體分析。
首先,從安全目標角度看,正如其他生產要素,數據要素的使用價值和交換價值的實現依賴于數據在所有者與使用者之間的流轉。數據要素安全旨在保證該過程中數據不會被第三方濫用、誤用,因而聚焦于數據的使用安全,本質上是業務層面的安全。然而,當前大部分組織機構的安全團隊還用網絡安全領域的技術和體系做數據安全,如異常檢測、訪問控制等,這是現階段的數據安全,目的是保護重要數據不外泄,不被攻擊組織竊取,本質上是基礎設施層面的安全。
其次,從威脅模型角度看,在數據安全的威脅模型中,敵手是惡意攻擊者,如APT(Advanced Persistent Threat,高級持續性威脅)組織、攻擊團伙等;在數據要素安全的威脅模型中,敵手則是不誠實的第三方,如窺視數據的合作伙伴。兩者風險不一致,數據安全相關技術不能成為推動數據要素安全流轉的關鍵技術和機制,但目前的數據安全機制可以是數據要素安全的底座和基礎,討論敵手模型是誠實的還是半誠實的前提是已經解決了惡意攻擊者的風險。
最后,從設計思維、安全體系和實現角度看,在傳統數據安全體系中,設計思維模式傾向于逆向思維,找到突破點,進而補齊;在數據要素安全體系中,則偏正向思維,即要在多個合作方之間實現數據要素流轉和安全計算,就應正向構建一個可證明的安全環境,而不是先假設對方是惡意攻擊者并窮舉各種攻擊手段。因此,基于密碼學的機密計算、可信計算、隱私計算等技術就成了賦能數據要素安全的關鍵技術。
數據要素安全與傳統數據安全的差異點總結見表1-3。
表1-3 數據要素安全與傳統數據安全的差異點總結

需要說明的是,雖然目標不同,但數據要素安全和傳統數據安全在大部分場景中是相輔相成、互為倚靠的。
1.2.4 數據要素安全與個人隱私
客觀上講,西方國家先進的科學技術在近現代對中國產生了深遠影響。在過去數十年,信息技術和立法領域也呈現“西風東漸”,國內一直在跟隨、借鑒西方國家,安全領域也不例外。因此我們在思考數據要素安全與個人隱私未來發展方向時,會不自覺地仍期望“西風東漸”,但筆者感覺近幾年已經開始發生明顯的變化,識別這些變化會讓我們對該領域的理解更為深刻。其中,國內外在數據安全后續發展中最大的差別在于,國外企業因合規性要求,朝著個人信息保護方向前進;國內企業則順應國家數據要素化的政策,積極探索如何挖掘數據資源的價值。
顯著的差異具體表現在多個方面,我們列舉如下。
(1)合規性差異
西方國家的數據安全相關法律法規以保護個人消費者信息為主,例如GDPR、CCPA(California Consumer Privacy Act,加利福尼亞消費者隱私法案)等法律法規,旨在約束數據控制者(data controller,通常是掌握個人數據的企業)以保障消費者的權益,如數據知情權、遺忘權等。因此,前幾年國外數據安全創業公司(如Big ID、securiti.ai等)的主要業務是發現、關聯和管理企業內的個人信息。
國內也出臺了《中華人民共和國個人信息保護法》,2024年頒布的《促進和規范數據跨境流動規定》對個人數據跨境流動做出了規定。但總體而言,個人數據安全只是數據安全的一部分。GB/T 43697—2024《數據安全技術 數據分類分級規則》將數據分為一般數據、重要數據和核心數據。重要數據是指“特定領域、特定群體、特定區域或達到一定精度和規模的,一旦被泄露或篡改、損毀,可能直接危害國家安全、經濟運行、社會穩定、公共健康和安全的數據”;而核心數據是指“對領域、群體、區域具有較高覆蓋度或達到較高精度、較大規模、一定深度的,一旦被非法使用或共享,可能直接影響政治安全的重要數據”。核心數據和重要數據在當前階段是國內數據安全更為關注的保護項,在數據要素應用中需要重點考慮,運營政府公共數據時更應當考慮此類數據的安全性。
(2)政策差異
國內將數據作為新質生產力,在滿足合規性要求的同時,更加強調探索和發揮數據要素的價值。例如,“數據二十條”強調“建立公共數據、企業數據、個人數據的分類分級確權授權制度,根據數據來源和數據生成特征,分別界定數據生產、流通、使用過程中各參與方享有的合法權利”。傳統數據安全做數據分類分級的目的是摸清家底,重點保護敏感數據;“數據二十條”的數據分類分級對象雖然也涉及個人數據,但并非合規驅動,而是推動數據要素化的第一步——確權授權。
(3)產業差異
在國外,除了傳統的數據安全風險評估和管理,隱私合規的需求驅動數據安全產業向保護個人隱私的方向前進,出現了隱私影響評估(Privacy Impact Assessment,PIA)、合成數據、主權數據策略、隱私管理工具等數據安全產品和服務。而國內隱私相關的數據安全產品相對較少,更多的是脫敏、水印、文檔管控、數據防泄露等產品,目的是解決數據流通過程中的各類安全問題。
(4)技術應用差異
盡管國內外在數據安全的政策引導和產業生態上的差異日益增大,但技術層面的差距正在逐漸縮小。在人工智能、數據安全和隱私保護的技術研究和應用方面,學術界和產業界百花齊放、日新月異。
Gartner對數據安全[2] 和隱私保護[3] 兩個領域的技術做了成熟度曲線分析,有意思的是,這兩條曲線上有相當多的技術是重合的,如機密計算、零知識證明、合成數據、差分隱私、同態加密等隱私增強技術。也就是說,同一個技術,既可以用于解決個人隱私不被濫用的問題,也可以用于解決敏感數據不出域的問題。
實際上,隱私增強技術如差分隱私、同態加密等,在國內外的應用場景也存在顯著差異。考慮到國外隱私合規是私營機構的強需求,隱私增強技術多用于涉及多方機構利用個人信息的協同計算;而在國內,隱私增強技術多用于確保敏感數據不出域的多方協同計算場景。原因很簡單,個人信息也好,敏感數據也罷,都是需要重點保護的數據資源。技術本身只是工具,只要能解決問題即可。
不過,讀者需要注意“隱私計算”與“隱私增強技術”和“隱私增強計算”的區別。國內李鳳華等老師在《隱私計算理論與技術》[4] 一書中提出了隱私計算的概念,其定義是“面向隱私信息全生命周期保護的計算理論與方法,是隱私信息的所有權、管理權和使用權分離時隱私度量、隱私泄露代價、隱私保護與隱私分析復雜性的可計算模型與公理化系統”。而產業界提得比較多的是隱私增強計算(Privacy-Enhancing Computation,PEC)或隱私增強技術(Privacy-Enhancing Technology,PET),目的是在保護個人隱私的前提下,合理使用個人數據,其間會用到聯邦學習、安全多方計算和機密計算等技術。因此,“隱私計算”與“隱私增強計算”和“隱私增強技術”既有微妙的區別,也有交叉重合。不過隨著數據要素安全的關注度日益增加,人們在日常交流中也會交替使用這三個術語。讀者可以先理解相關概念,熟悉所涉及的支撐技術,再根據具體的需求去解決日常遇到的問題,而不必糾結術語的字面差別。因為本書重在實踐,所以可能存在這三個術語并用的場景,但它們都是指各類隱私增強技術。
當然,除了上述有重合的技術,數據安全和隱私保護技術的差異也比較明顯。數據安全明顯側重于數據流通過程中的數據安全保護,如數據安全平臺(Data Security Platform,DSP)、數據防泄露(Data Loss Prevention,DLP)、數據風險評估(Data Risk Assessment,DRA)、數據安全服務(Data Security as a Service,DSaaS)、數據安全態勢管理(Data Security Posture Management,DSPM)等;隱私保護則側重于滿足個人隱私合規的風險管理和技術,如隱私管理(Privacy Management)、隱私設計(Privacy by Design)、主體權利要求(Subject Right Requirement,SRR)等。
綜上,國內正朝著數據要素安全的方向快速前進,國外則沿著隱私合規的方向持續推動數據安全產業發展,其間國內外都會使用相似的支撐技術來解決原始敏感數據不出域、數據可用不可見的問題。支撐技術相同,但應用場景不同,可以預見這兩個賽道會演化出不同的安全架構和技術棧。
- 白話網絡安全2:網安戰略篇
- Preventing Digital Extortion
- API攻防:Web API安全指南
- 代碼審計:企業級Web代碼安全架構
- Kerberos域網絡安全從入門到精通
- 信息安全等級保護測評與整改指導手冊
- CTF特訓營:技術詳解、解題方法與競賽技巧
- Mastering Malware Analysis
- Mastering Metasploit
- Practical Mobile Forensics
- Hands-On Bug Hunting for Penetration Testers
- 網絡對抗的前世今生
- 極限黑客攻防:CTF賽題揭秘
- Web安全之機器學習入門
- 數據安全實踐:能力體系、產品實現與解決方案