官术网_书友最值得收藏!

數據要素安全:新技術、新安全激活新質生產力

1.1?數據要素的發展歷程

1.1.1 數據1.0時代

為了深入理解數據要素,讓我們將時鐘往前撥一撥,回顧一下“前數據要素時代”。實際上,在數據要素成為焦點之前,我們所討論的數據主要面向技術領域,側重于信息處理和業務應用。

在信息處理層面,數據可以視為一種信息技術資源,如軟件定義存儲、數據庫管理、大數據運維技術等,主要考慮的是如何有效、彈性地構建、管理數據存儲基礎設施,以支撐后續的數據處理和分析;而在業務應用層面,數據被當作應用的原始輸入和所需資源,經加工、處理形成面向特定場景的知識庫或算法,如數據分析處理技術,常見的應用場景有反欺詐、人臉識別等。

我們查閱了國內外學者對數據的不同定義,發現定義眾多。例如,維基百科給出的定義如下:數據(Data)是一組離散或連續的值,用于表達信息(Information),或描述數量、質量、事實、統計等基本含義,還可能是用于形式化解釋的簡單序列符號(Symbol)。

數據可以是一段文字,也可以是一張圖片,還可以是一個視頻。從最終呈現的視角來看,數據就是一組離散值或連續值的集合,因而數據本身沒有意義,數據必須經過解釋(Interpret)后才有用處,經過解釋的數據就變成了信息。

更進一步,如圖1-1所示的DIKW金字塔,其中的D、I、K、W分別代表數據(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)。DIKW金字塔是信息管理和知識管理領域的一個經典框架,用于描述從數據到智慧的轉化過程。DIKW金字塔自底向上,每層的容量變小,但重要度、洞察度和預測力不斷變強。

圖1-1 DIKW金字塔

從人類認知的角度來看,數據是金字塔最底層的信息處理的原始輸入,是我們觀察這個世界的客觀事實的記錄值,而經過人類加工的信息、知識和智慧已經超越了數據本身。

從信息技術的角度分析,我們所討論的數據是DIKW金字塔在基礎設施層面的投影。比如,我們稱存儲在計算機中的文件為靜態數據(Data At Rest),而將網絡中實時傳輸的直播視頻稱為動態數據(Data In Transit)。在這些場景中,數據是信息、知識和智慧的載體。

在本書中,當我們討論數據安全時,必然涉及各種“數據”字樣的概念,這其實或多或少地關聯到了信息或知識維度而非簡單的原始數據。盡管我們通常統稱它們為“數據”,但在不同的場景或語境下,該詞所表達的含義是不同的,相應地,我們采取的處理方式和處理維度也不盡相同。就如我們在談論數據安全方案時,有的機制關注網絡安全,有的機制關注應用安全,還有一些關注的是業務安全,原因就在于這些技術所針對的“數據”本身處在不同的維度。比如,API數據安全技術需要關注作為應用層業務的數據載體的傳輸模式;再如,數據分類分級、敏感數據識別等技術需要關注某行業的領域知識和法律規定。

在數據1.0時代,企業的業務部門應該關心如何存放、處理和清洗數據,或如何利用預處理完的數據建模來解決特定的業務問題。數據治理部門應該關心在滿足合規性和易用性的前提下,如何在數據生命周期內進行數據管理、數據監管和數據質量提升等。更進一步地,數據安全部門或負責數據安全的團隊應該站在DIKW金字塔的基礎設施層面,關注隱私合規和數據載體安全。此時,整個環節的利益相關方(決策者、執行者、使用者和受益者等)主要集中于企業內部的業務部門、數據治理部門、信息化支撐部門、信息安全部門、審計部門、風險合規部門等[1]。數據作為企業的資源是不會隨意對外公開的[2],自然也就不會有其他外部的參與方或利益相關方。


[1]在強監管的行業,業務部門外相關的數據治理工作復雜,因而企業會設立獨立的數據治理團隊和組織架構,以負責企業整體的數據治理、數據安全和其他數據相關工作,該團隊可以是跨部門的,也可以設置為數據治理部,或由數據中心承擔相關職責;而在非強監管的行業,企業的數據治理通常由業務部門和信息安全部門負責。

[2]當然也有例外,如一些金融集團本身存在復雜的組織結構,集團外的科技公司也會使用集團數據,此時的數據治理和數據安全就會比較復雜。

1.1.2 數據要素時代到來

2019年10月31日,中國共產黨第十九屆中央委員會第四次全體會議通過《若干重大問題的決定》,首次在中央層面確定數據可以作為生產要素參與分配。

2020年4月,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,將數據列入生產要素,并提出了“加快培育數據要素市場”。

至此,數據在國內成為自土地、勞動力、資本、技術之后的第五大生產要素。數據在信息知識載體的基礎上,正式具備了生產要素的屬性。

在數據要素時代,數據資源的經濟價值在生產環節被數據加工者深度挖掘,形成數據產品(如數據集、報表、數據模型、數據應用等);數據產品在分配、流通、消費等環節被視為一種新型資產,可用于財富重分配,最終釋放數據價值。這個數據要素化的過程如圖1-2所示。

圖1-2 數據要素化的層次圖

因而,數據要素時代的關鍵在于數據的要素化,也就是將數據視為人們在生產經營過程中所需的資源或輸入。

當一項技術對業務發展產生良性作用時,其成功便成為必然;若該技術還能與經濟發展緊密結合,那么它所帶來的時代紅利將無限擴大。在一個每天新增海量數據、每個人都生產和消費各類數據的時代,數據要素化帶來了生產效率的提升和社會財富的增加。

近年來,生成式人工智能(AIGC)大熱,其背后的大模型搭載了海量參數,讀取了海量數據,從而表現出驚人的智能水平。在此過程中,算力、算法和算據(計算數據的簡稱)缺一不可。以云計算為關鍵技術的算力基礎設施已然成熟,因預算限制,越來越多的企業開始使用公有云的GPU(Graphics Processing Unit,圖形處理單元)租賃服務進行模型微調和推理;以大模型為代表的各種人工智能算法日新月異,解決了各領域越來越多的問題;而處于最后一環的數據,特別是高質量、面向特定行業的標記數據,目前是制約各行各業智能化服務質量的關鍵因素。因而,將數據要素化,通過經濟手段提升數據流通和匯聚的規模與質量,能極大地提升我國生成式人工智能基座模型和各類知識庫的性能。

誠然,目前在學術和立法層面,關于數據要素的確權、流通、治理仍存在諸多討論,監管機構、交易所和企業在實踐數據要素化方面尚未形成成熟的標準做法,公眾對數據要素化的理解還處在初級階段,且這個領域依然存在各種不確定因素,遠沒有進入快車道。

縱然還存在各種不確定因素,但不可否認的是“數據要素”這一新時代已不可阻擋地到來了。數據要素化的價值,考慮到司法、技術和行業實踐的不成熟,短期內被高估了,但考慮到數據要素與各行各業結合后在智能化、自動化水平上的極大提升,長期看又絕對被低估了。

1.1.3 數據與數據要素的關系

數據要素時代強調如何在社會生產、生活中使用數據,并與其他要素結合,進而發揮出更大的價值,創造出更大的經濟效益和社會效益。

如前所述,數據是生成信息的輸入和所需資源,數據要素是社會生產的輸入和所需資源。雖然都是“輸入和所需資源”,但這兩個術語顯然不同。數據是面向信息技術領域的,而數據要素是面向經濟社會領域的。

可以說,數據是數據要素的基礎,包括人工智能、大數據等技術在內的數據基礎設施是數據要素化的底層技術支撐。數據要素則是數據在社會活動中的價值外在體現,數據加工者根據生產目標和業務場景需求,利用各類算法與數據結合,得到蘊含知識和智慧的數據資產。如果某類數據資產可以交易,那么它們就是數據產品。

從研究領域來看,數據是信息技術領域的一個概念,而數據要素超越了該領域,已經延展到了經濟學、會計學、法學領域。讀者可以訪問中國知網(下文簡稱知網),在主題中搜索“數據要素”,將研究論文按照學科分類,如表1-1所示(數據截至2024年5月14日)。除了計算機學科,數據要素還涉及政治、行政、證券、經濟、金融和法律等,絕大部分的研究是2020年以后的,且每年的研究論文數量成倍增長,可見該領域的研究涉及面廣、研究者眾、學科交叉復雜。

表1-1 知網上“數據要素”研究論文的學科分類

圖片表格

為何數據要素這么復雜呢?原因在于“數據要素”與多個領域相關。

首先,數據要素是一種生產要素,該術語屬于經濟學范疇。生產要素是指社會生產經營過程中所需的各類資源。在最早的經濟學理論中,重農學派將生產過程解釋為人口中參與階級間的互動。在農業社會,最重要的生產要素是土地。后來發展到資本主義社會,古典經濟學派在土地的基礎上增加了資本和勞動力兩大生產要素。經濟學家亞當·斯密在其代表作《國富論》中提出,“無論在什么社會,商品的價格歸根結底都可以分解為勞動、資本和土地”,形成了“生產要素三元論”。

進入現代社會,隨著市場經濟占主導地位,企業家或組織也被一些學者納入了生產要素的范疇。19世紀末,西方經濟學家馬歇爾在其著作《經濟學原理》中將組織列為第四大生產要素,提出了“生產要素四元論”。

當前,各類創新技術快速發展,技術也被視為一種生產要素(當然,技術本質上也屬于勞動的一部分)。

進入21世紀后,數據作為第五大生產要素被凸顯。數據已經脫離了其他生產要素,具備獨特的價值,可見信息、知識和智慧這些數據衍生品正在發揮越來越大的作用,成為人類社會經濟活動的重要基礎。

其次,數據要素的確權、跨境問題涉及復雜的法律法規。例如,《關于構建數據基礎制度更好發揮數據要素作用的意見》(又稱“數據二十條”)提到了建立數據資源持有權、數據加工使用權、數據產品經營權等分置的產權運營機制。如何界定給定數據集的相關產權?這既是明確法律細則和司法實踐的問題,也是技術領域需要突破的難點。考慮到數據的易復制和易修改,需要在源頭建立確權登記機制和流程,并具備從數據流通路徑上對數據片段進行溯源和跟蹤的能力。

2024年3月,國家互聯網信息辦公室頒布了《促進和規范數據跨境流動規定》,明確了數據在跨境流動過程中所涉及的數據安全評估、個人信息認證管理等要求。這些要求如何得到執行,還涉及組織架構、流程管理、技術支撐等方方面面。

再者,數據入表需要考慮企業的無形資產和存貨計算,這涉及會計學;而數據要素的進一步推廣又需要自頂向下制定政策,這涉及政治和行政學。

最后,數據要素化的核心是將數據變現,也就是要充分考慮實際應用場景和業務需求。2024年1月4日,國家數據局等17個部門聯合發布《“數據要素×”三年行動計劃(2024—2026年)》,提出了數據要素要賦能智能制造、智慧農業等重點行業,從而將數據要素與各行各業聯系起來。可以預見,隨著時間的推移,數據要素相關的研究和實踐將如同IT技術一樣,拓展到更多行業和應用領域,成為一種普遍的價值增長途徑。

1.1.4 數據要素的發展

隨著人工智能,特別是AI大模型的迅猛發展,數據的價值已經得到廣泛認可。無論是出于國家間人工智能戰略競爭,還是出于利用數據提升生產效率和促進經濟發展,很多國家都開始制定數據賦能經濟和社會發展的戰略。

1.中國數據要素的發展

近年來,數據要素的發展可謂迅猛,下面我們從互聯網關注度、學術研究、國家頂層設計和組織架構等方面進行分析。

從互聯網關注度來看,數據要素熱度方興未艾。筆者在百度指數、巨量算數(今日頭條的數據平臺)和Google Trends上搜索了“數據要素”,得到圖1-3~圖1-5,可見數據要素的關注度在2023年之前并不高,但此后開始激增。這或許能印證數據要素的整體發展趨勢:起步晚,關注度高,發展快,但落地尚早。

圖1-3 “數據要素”的百度指數

圖1-4 “數據要素”的頭條關鍵詞搜索指數

圖1-5 Google Trends上“數據要素”的熱度

從學術研究來看,數據要素的研究增長迅速。筆者同樣也搜索了知網上的數據要素研究論文,如表1-2所示。自2019年以來,此類論文的數量呈現基本上每年翻一番的趨勢,結合表1-1,可見數據要素的學術研究不僅在數量上增長迅速,而且研究領域也在不斷延展。

表1-2 知網上“數據要素”研究論文的年度數量

圖片表格

數據要素發展的內在動力源于其將數據價值轉化為經濟價值的巨大潛力。近年來,數據要素發展的主要推動力是國家層面對數據要素頂層設計和組織架構的不斷完善。實際上,自2019年數據要素這一概念誕生以來,與數據要素相關的國家機關和組織架構一直在持續優化。

2023年3月7日,國務院發布了《關于國務院機構改革方案的說明》,正式宣布國家數據局的成立。國家數據局由國家發展和改革委員會管理,負責協調推進數據基礎制度建設,協調國家重要信息資源的開發利用與共享。

國家數據局主要聚焦于數據的開發,與數據要素安全相關的還有公安機關、國家安全機關和國家網信部門等。在《中華人民共和國數據安全法》中,對這些機構的職責已有說明。

公安機關、國家安全機關等依照本法和有關法律、行政法規的規定,在各自職責范圍內承擔數據安全監管職責。

國家網信部門依照本法和有關法律、行政法規的規定,負責統籌協調網絡數據安全和相關監管工作。

國家數據局成立后,國家網信部門中與數據發展相關的職責由國家數據局統一行使,而其在網絡安全、數據安全、個人信息保護、關鍵信息基礎設施安全方面的“統籌協調”法定職能不受影響。

與此同時,各地數據管理機構也在進行相應調整。此前,各省級大數據局由各地自行組建,其職責、性質和配置等各不一樣。國家數據局成立后,各地開始組建省級數據局。2024年年初,不到兩個月就已成立19個省級數據局。這些地方數據局的成立,標志著國家數據局的職能在地方層面得到落實,我國對數據要素的重視程度達到了前所未有的高度。

“組織定”則“職責明”,“職責明”則“規劃出”。在數據被列入生產要素之后,與數據要素相關的政策、法律法規也不斷發布。

2022年6月,“數據二十條”在中央全面深化改革委員會第二十六次會議上審議通過,該文件旨在從數據產權、流通交易、收益分配、安全治理等方面構建數據基礎制度。

2024年年初,國家數據局等17個部門印發《“數據要素×”三年行動計劃(2024—2026年)》,提出探索多樣化、可持續的數據要素價值釋放路徑。

可以預見,隨著國家數據局數據要素相關工作的開展,國家層面的數據要素政策將會不斷推出;同時,各地數據局的職責相繼明確,這些地區的數據要素規劃、政策將會越來越密集地推出,進一步加速相關產業的發展。

2.美國的數據戰略

2019年6月,美國行政管理和預算局(OMB)發布了美國聯邦數據戰略(Federal Data Strategy,FDS),旨在通過有效的數據管理和共享,提升政府的效率和決策能力,推動公共服務的改進[5]。FDS強調的是責任與透明,雖然責任與安全相似,但也有區別。與傳統的安全觀念相比,責任更側重于正向引導而非限制和約束。FDS的具體目標包括但不限于:

1)為公眾、企業和研究人員提供一致、可靠且保護隱私的聯邦政府數據;

2)增加數據在聯邦決策和操作中的共享與使用;

3)通過豐富的描述和元數據提升數據的可發現性;

4)為地方政府提供安全數據訪問的管理工具和協議;

5)通過風險評估和利益相關方參與,提前規劃數據的二次用途。

為了實現FDS的目標,美國聯邦政府規劃了如圖1-6所示的十年愿景,大致分為4個階段:基礎階段(2020—2022年),聚焦于數據治理、規劃和基礎設施建設;企業級階段(2023—2025年),推動標準化、預算管理和跨部門協調;優化階段(2026—2028年),推廣自助分析工具;數據驅動階段(2029年及以后),實現基于證據的決策和自動化數據改進。

圖1-6 FDS十年愿景規劃

除此之外,為了落實FDS的具體行動,美國還會發布每年的行動計劃:2020年行動計劃,這是美國發布的首個年度行動計劃,重點聚焦于數據治理、數據基礎設施建設和跨部門協作等基礎工作;2021年行動計劃,繼續推動基礎設施建設,同時加強隱私保護、數據共享和跨機構合作;2022—2024年行動計劃,美國目前還未正式發布或詳細披露具體內容,可能會繼續聚焦于數據的可用性、跨部門的數據共享以及推動數據驅動決策。

隨著人工智能的廣泛應用,尤其是大模型的發展極大提升了智能化水平,給各行各業提供了豐富的想象空間。2023年,美國白宮公布了《國家人工智能研發戰略計劃》,提出了一系列圍繞人工智能使用和發展的新舉措。這一戰略使數據監管成為焦點,尤其是在隱私保護、數據安全和跨境數據流動等方面。隨著人工智能技術的快速發展,數據已經成為驅動AI系統運轉的核心要素,美國政府及相關機構逐步加強了對數據收集、存儲、使用和分享的監管。出于對國家安全和經濟競爭力的考量,美國在AI戰略中引入了更嚴格的數據管控措施,以應對AI技術濫用、數據泄露及敏感信息被非法獲取的風險。

基于此,美國國家標準與技術研究院于2023年發布了AI風險管理框架(AI Risk Management Framework,AI RMF),旨在幫助各類組織在開發、部署和使用AI系統時管理與之相關的風險。AI RMF強調了數據在AI系統中的核心作用,特別是針對數據的隱私和安全,提出了以下幾項關鍵建議和要求。

差分隱私:AI RMF建議在處理和使用敏感數據時,采用差分隱私等技術,確保即使在分析過程中也無法識別個人身份。通過在數據集中加入“噪聲”,可以保護用戶隱私。

數據最小化:AI RMF鼓勵企業和組織只收集、使用和存儲實現AI系統目標所必需的最少數據,從而減少不必要數據收集導致的風險。

加密標準:AI RMF要求在數據的存儲和傳輸過程中使用加密技術,以確保數據在AI系統的整個生命周期中免受未經授權的訪問和篡改。

基于角色的訪問控制:AI RMF建議實施嚴格的訪問控制策略,確保只有授權人員才能訪問和處理數據,減少內部人員泄露敏感數據的風險。

數據分級管理:AI RMF建議根據數據的敏感程度對其進行分級管理,并為每種類型的數據設定不同的安全和隱私保護標準。

數據偏見檢測:AI RMF建議在使用訓練數據時,對數據集中的偏見進行檢測和糾正,以防止AI系統因為數據偏見而做出不公平的決策。

總的來說,美國的數據戰略側重于聯邦政府相關數據的公開,以促進創新和技術發展;中國的數據要素則涵蓋了更多應用場景,除了數據公開,還包括數據交易、數據共享交換等,更強調通過多元化的數據管理模式推動數字經濟的發展。

主站蜘蛛池模板: 旌德县| 普兰县| 曲麻莱县| 南陵县| 柯坪县| 汤阴县| 新化县| 普洱| 清流县| 永川市| 扎赉特旗| 壤塘县| 高淳县| 遵义县| 张家川| 福建省| 灌阳县| 福州市| 兰考县| 广东省| 习水县| 长岭县| 青冈县| 永安市| 河津市| 收藏| 赣榆县| 伊金霍洛旗| 蛟河市| 锡林浩特市| 若羌县| 贺兰县| 香格里拉县| 天柱县| 五莲县| 黑河市| 马公市| 余庆县| 卢龙县| 乐山市| 上杭县|