第4章 《大數據偵查概述》:大數據的特征與運用
- 大數據偵查法治化研究(山東大學數據法學叢書)
- 彭俊磊
- 6035字
- 2025-03-25 15:15:24
“大數據偵查”作為大數據時代在偵查學、訴訟法學領域新近誕生的一個名詞,其內涵與外延目前尚未形成通說,在概念界定方面依然存在諸多爭議。根據筆者對偵查人員、技術人員、法制工作者、刑辯律師以及專家學者的調研訪談結果來看,大家對“大數據偵查”的理解各異,存在不一樣的解讀。所以要想對大數據偵查法治化進行系統研究,首先應對“大數據偵查”的基本內容進行明晰,梳理大數據的發展歷程,厘定大數據偵查的基本概念,歸納大數據偵查的外在特征及實踐樣態,在此基礎上再對大數據偵查的實踐價值和理論基礎展開深入分析,從而實現對“大數據偵查”的祛魅,為大數據偵查法治化研究奠定堅實基礎。
隨著高新技術與信息數據的高速發展,人類生活場域逐步邁入現實與虛擬融匯的“二元空間”[2]。信息憑借互聯網的高效傳遞,進一步打破了時空的限制。網絡化、數字化、智能化疊加交融發展,世界正被逐步塑造成為無縫連接、即時互動、分布共享的信息共同體。[3]因應世界經濟高速發展,科技進步顯著加快,互聯網絡已經無處不在,成為社會生活不可缺少的一部分。當虛擬社會與現實社會彼此交融,信息的傳輸將越來越依賴于數字媒介。也正因此,越來越多的信息數據正在集聚,并呈指數級增長,從而實現了由“IT(信息技術)時代”向“DT(數據)時代”的邁進,“大數據”自然孕育其中。從這個意義上來看,大數據的確開啟了一次新的時代轉型,它對我們的生活方式以及看待世界的角度都產生了巨大影響,越來越多的變革與創新將基于大數據而不斷涌現。
一、概念界定
在很長一段時間內,“數據”與“信息”這兩個詞往往相伴而生,甚至常常會被用來替換使用,但實際上二者之間是有區別的。“數據”一般被認作未被加工的事實或觀察的結果,它既可以是數字、文字、符號,也可以是聲音、圖片、視頻,是一個物理性、抽象性的概念,用來反映客觀事物的原始素材;而“信息”則是在原始素材基礎上所要表達的主觀見之于客觀的內容,是一個邏輯性與觀念性的概念,通過對數據進行解釋從而賦予其具體而實際的意義。質言之,數據是信息的載體,信息是數據的內涵,二者不可分離。如果說人類文明與社會進步依托于知識的積累與升級,那么知識就是沉淀并與已有人類知識庫進行結構化的有價值信息,而有價值的信息又得益于客觀數據的加工處理。在這個意義上來看,數據當中蘊含著信息,創造著知識,推動著時代變革。
如今立身于大數據時代,顯然這一次時代變革與“大數據”息息相關。然而究竟何為“大數據”,目前尚無統一定義,基于不同視角存在著多種解讀,在現階段它仍然是一個可以進行多元化認知的開放性概念。如果單純從數據層面來看,大數據僅是一個海量的數據集合[4];但若基于專業技術的視角,大數據又是一種包括了數據處理與智能分析的專業技術方法[5];假若進一步上升到價值高度,大數據則更加強調海量數據背后的價值與規律[6]。在我國2014年發布的《大數據白皮書》中,圍繞“資源、技術、應用”三個維度對大數據作出了如下描述:“大數據是具有體量大、結構多樣、時效強等特征的數據;處理大數據需采用新型計算架構和智能算法等新技術;大數據的應用強調以新的理念應用于輔助決策、發現新的知識,更強調在線閉環的業務流程優化。”[7]從這樣一段表述也可以看出,我們對“大數據”這一概念的理解,不應僅僅局限于字面意義之“大”,更要關注其內涵價值之“新”,它既是一種新資源,又是一種新技術,更是一種新理念、新思路、新模式。
首先,大數據是一種新資源。作為海量的數據集合,已有人將大數據比作信息時代的巨大金礦,美國聯邦政府更是于2012年就將大數據視作“未來的新石油”,并將“大數據戰略”上升到了國家意志層面,認為未來國家的核心資產是對數據的占有與控制。[8]當大數據成為寶貴的新資源,“數據主權”的概念也便應運而生。單就數據本身而言,從形式類型上,它又可以分為結構化數據和非結構化數據,但不管基于何種形式,數據本質上都是對信息數字化的記錄。作為一種對客觀世界進行量化和記錄的結果,大數據表示的是過去,關注的卻是未來。作為記錄信息的載體,數據是知識的來源,也是分析判斷與科學決策的重要依據。在大數據時代背景下,數據的激增為人類智識的增長創造了前所未有的契機與動力。如今我們完全可以通過數據的收集、交換、整合與分析,發現新的知識,創造新的價值,實現由“大數據”向“大知識”“大智慧”“大發展”的演進[9],大數據儼然已成為各方爭相占有的資源。
其次,大數據是一種新技術。伴隨著高新技術的發展,社會也發生著翻天覆地的變化。特別是計算機、互聯網的普及,社會已經不再局限于單一的物理空間,更多的信息傳遞在虛擬空間中交互發生。在萬物皆互聯、互聯皆計算的“普適計算”下,也便意味著“有計算即有數據”,大數據技術應運而生。從技術層面來看,國際數據中心的學者認為,大數據技術描述了一個技術與體系的新時代,被設計為通過高速捕獲、發現以及分析技術從大規模多樣化的數據中來提取其價值。[10]這樣一種新技術,使得時空更加貫通,可以基于既往預測未來。甚至有學者曾經斷言,93%的人類行為是可以通過大數據來預測的。[11]且不論“93% ”這一概率的準確與否,大數據之于分析預測的重大推動作用確是毋庸置疑的。而這種強大的分析預測能力除了得益于海量數據集合的客觀存在,更在于其在數據收集、提取、挖掘、分析以及呈現等各個環節所提供的強大技術支撐,顯然大數據不應僅僅理解為海量數據集合,它還是一種新興的前沿技術。
最后,大數據更是一種新理念、新思路、新模式。數據作為科學的量度、知識的來源,更是我們學術研究,乃至政策制定的重要依據。對于大數據的認知,我們除了要初步了解其數據體量、分析技術,還應當轉換傳統視角,樹立起一種新的思維模式、思考路徑。大數據的影響,如同四個世紀前人類發明了顯微鏡一樣。顯微鏡把人類對自然界的觀察和測量水平推進到了“細胞”的級別,給人類社會帶來了歷史性的進步和革命。[12]而大數據將成為我們下一個觀察人類自身社會行為的“顯微鏡”和檢測大自然的“儀表盤”。[13]這種視角的轉換,將深刻影響人們的行為模式、國家的治理模式以及社會的發展模式。大數據之所以能夠開啟一次時代變革,顯然它的影響是全方位的,而其中最關鍵的就是對于人們認知理念、思維方式乃至社會運行模式帶來的巨大改變。大數據已經遠遠跳脫出一般意義上的數據集合或技術手段概念,它更是一種新理念、新思路、新模式。
二、核心特征
從古至今,人類發展歷程中大致經歷了三次重大革命,第一次是農業革命,使人類從采集活動走向種植生活;第二次是工業革命,使人類從畜力耕作走向機械生產;第三次則是當前正在進行的信息革命,將使人類從物理生態走向智能生態。[14]基于人類的信息化革命進程,我們又可將其劃分為三個時代,即計算機時代、互聯網時代和大數據時代。[15]計算機時代,主要解決了信息的機器可讀化和數據的可計算化問題;互聯網時代,則主要解決信息傳遞和信息服務的問題;在二者的基礎上,我們正在進入一個嶄新的歷史階段——大數據時代。以此為時代背景,數據不僅“多源”(產生及獲取渠道的多樣性)而且“異構”(分析及運用形式的豐富性),其價值得到了前所未有的開發與利用。在這一過程中,大數據彰顯著鮮明的核心特征。當前業界普遍認為大數據具有四項核心特征,并將其概括為“4V特性”。
第一,數量大(Volume)。數據的存儲單位有B、KB、MB、GB、TB、PB、EB、ZB、YB等依次遞增,大數據語境下的數據量通常至少是以TB(1TB=1024GB)作為基礎單位進行計算衡量。之所以會有如此大量的數據存在,與計算機、互聯網的普及密不可分。在信息網絡高度發達的今天,數據正在以一種超乎想象的速度爆發式增長。根據聯合國早期的研究報告顯示,全球的大數據存量從2005年的150EB,增長到了2010年的1200EB,并預計將以40%的年增長率繼續增長,到2020年全球的數據量將會達到35ZB,這意味著在最近兩年內產生的數據量相當于人類之前所有數據量的總和。[16]顯然,當前全球的數據量總和已經遠超預期。以美國國家安全局的數據收集為例,其每六個小時產生的數據量就相當于美國國會圖書館藏書信息的總量。再直觀一點,每1EB的信息量相當于14億中國人人手閱讀一本500余頁的書籍的信息量。可以說,我們已經置身于一個數據無處不在的時代,每個行為人既是數據的創造者、所有者,同時也是數據的享用者,數據總量仍在不斷增加。
第二,類型多(Variety)。關于數據的類型,因為劃分標準不同,所以會存在多種不同分類。如根據數據層次進行劃分,可以分為原始數據(自愿提供的數據、被觀測的數據)、二次數據(被推斷的數據,包括特征數據及總量數據)、三次數據(深加工的數據);根據數據內容進行劃分,可以分為行為數據(指依賴于用戶的某些行為,并在行為的過程中或是作為行為的結果而產生的數據,例如搜索信息、瀏覽痕跡、位置信息等)、非行為數據(指不依賴于用戶的某個具體行為而固有的數據。例如姓名、血型、籍貫、住址等)。[17]當然,最常見的分類還是依據數據屬性,可以分為結構化數據和非結構化數據。結構化數據的格式較為統一,更易于存儲、處理和查詢;非結構化數據則沒有統一的結構屬性,增加了存儲、處理和查詢的難度。然而,進入到大數據時代,以圖片、音頻、視頻等為代表的非結構化數據要遠遠多于結構化數據,其增長速度是結構化數據的10倍到50倍,占到數據總量的75%以上。[18]單就非結構化數據而言,隨著網絡信息技術的更迭發展,圖片、音頻、視頻等在存儲格式上也日益多樣化,這也進一步展現出大數據類型多這一核心特征。
第三,速度快(Velocity)。大數據時代更加強調數據的智能性、流動性和實時性。面對如此浩繁、復雜的數據集合,如果還是以傳統的思維和技術進行分析,勢必將被時代淘汰。對數據的快速處理是大數據的又一個典型特征。以百度為例,其在2012年左右的數據總量已經接近1000PB,存儲網頁數量近1萬億,每天大約要處理60億次搜索請求、數十PB的數據量。[19]數據不是靜止的,而是流動的,其價值的發揮往往依賴于信息的交互共享。尤其是在一個數據爆發式增長的時代,數據傳遞、處理、分析的效率顯得更加重要。這種速度的提升不僅依賴于處理器等硬件設備的更新升級,還有賴于對數據搜集、數據挖掘、數據分析、數據運用等信息系統的優化,通過不斷改進完善算法,從而提升整體運行效率。因此,進入大數據時代,云計算、人工智能推動了計算能力的再次升級,數據的分析速度更加快捷高效。
第四,價值高(Value)。關于大數據的價值特征,實際上存在很多不一樣的解讀,目前大多數學者習慣將其概括為“價值密度低”[20]。其實不然,這種“價值密度低”的表述主要還是針對指數級增長的數據總量而言的,認為急劇增長的數據體量會稀釋有價值的信息,從而造成價值密度的降低。這種判斷是基于一種不現實的假定,認為有價值的信息量相對固定,那么隨著數據總量的爆發式增長,自然會出現“分子不變而分母增加”的“價值稀釋”的現象,導致在海量數據集合中提取有價值信息的難度大大提高。但實際情況并非如此,如果我們回到“數據—信息—知識—智慧”的DIKW(D-Da-ta, I-Information, K-Knowledge, W-Wisdom)金字塔數據分析框架[21]下重新審視,有價值的信息不可能是固定不變的,數據總量的擴充、數據類型的豐富、數據分析速率的提升,都將極大促進更多有價值信息的發現和提取,形成更多知識結晶,進而凝結更多人類智慧。所以當我們基于充分利用數據、榨取更多信息規律的立場進行思考時,應當承認大數據在推動社會發展進步過程中的高價值。
三、發展運用
從歷史梳理維度來看,大數據的發展運用可以追溯到2011年,該年度全球知名咨詢公司麥肯錫(McKinsey & Company)發布了一份關于大數據的詳盡報告《Big Data: The next frontier for innova-tion, competition, and productivity》,在這份報告中首次提出了“大數據”的概念。時至如今,在短短十幾年的時間里,大數據已經被世界各國、社會各界廣泛熟知并被予以高度重視。
目前,主流通說認為2013年是世界大數據的發展元年。在2013年前后,美國、日本、歐洲等國家和地區先后制定了一系列國家政策來支持發展大數據,并將其上升到國家戰略高度或者納入國家發展計劃行列。以美國為例,其已經積累了較為豐富的“數據治國”經驗,積極倡導大數據平臺建設,實現了數據庫間的對接,并以此為基礎通過數據分析,制定相應的社會管理政策。比如,美國國家交通管理局通過“循數管理與數據發布”的形式,促進社會監督與群言群策。除了政府部門致力于大數據發展以外,涵蓋了商業、工業、農業、醫療、教育等各個領域的相關主體同樣對大數據這座待開發的寶藏充滿了高漲的熱情,例如運用大數據進行商業精準營銷,以大數據助推工業現代化,通過大數據進行環境監測,借助大數據實現智慧醫院、智慧校園建設等,均卓有成效。
我國同樣高度重視大數據發展。在2014年3月份的政府工作報告中,首次寫入了“大數據”,提出要“趕超先進,引領未來產業發展”。[22]2015年8月,國務院出臺《促進大數據發展行動綱要》,將大數據定位為推動經濟轉型發展的新動力、重塑國家競爭優勢的新機遇、提升政府治理能力的新途徑,倡導大力推動數據開放共享,實現信息資源整合。[23]2016年3月,發展大數據正式上升為國家戰略,被寫入到“十三五”規劃綱要當中,并將大數據定位為“基礎性戰略資源”。[24]2017年10月,黨的十九大提出推動大數據與實體經濟深度融合;同年12月,中央政治局就國家實施大數據戰略進行集體學習,強調加快建設數字中國。隨著國家大數據戰略的實施,圍繞數據展開的法治建設也在不斷推進,為了規范數據處理活動,保障數據安全,促進數據開發利用,保護個人、組織的合法權益,維護國家主權、安全和發展利益,繼《中華人民共和國網絡安全法》之后,我國在2021年又相繼頒布實施了《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》,構建起了涉數據法律規范的“三駕馬車”。由此也可以想見,在未來很長的一段時間里,圍繞大數據進行的一系列技術革新、產業發展、制度完善以及法治建設等都將同步推進,大數據勢必將更加廣泛地運用于社會各個領域。
當然,通過對國內外大數據發展脈絡的梳理可以看到,大數據在產業發展、經濟創新、社會管理等領域的推動作用顯著。實際上除此之外,大數據對于維護社會安定有序、捍衛公平正義同樣起著至關重要的作用,特別是在刑事司法領域內,將對“打擊犯罪與保障人權”產生深遠影響。2013年著名的美國波士頓馬拉松爆炸案,正是基于這10TB的大數據分析,最終確定了犯罪嫌疑人。[25]在國內外一系列重大疑難案件的偵破過程中,同樣有著大數據的重要身影,且發揮著越來越重要的作用。置身于大數據時代,每一個體的一言一行都將被數字化記錄下來,甚至主觀層面的想法、習慣、愛好等也都可以通過大數據分析得以預判。因此,對于刑事案件而言,大數據所蘊含的價值并不僅僅表現為對已發案件線索、證據的發現與固定,還表現為對未發案件進行預警預防,維護社會安定有序,從而實現對刑事犯罪的綜合治理。本書接下來就將重點聚焦于刑事司法領域(尤其是偵查領域),重點探討大數據對傳統偵查體系的沖擊和改變,并以此為基礎探尋大數據運用于偵查實踐所引發的一系列相關法律問題,進而深入探究大數據偵查法治化的實現路徑。