- 數字化時代中國企業國際化戰略研究
- 程聰等
- 1739字
- 2021-09-28 16:01:18
第三節 認知大數據的分析原則
目前,大數據的起源大致分為三類:①未提出“大數據”詞眼,但蘊含“大數據”現象。有學者認為大數據最早源起于19世紀80年代美國第十次人口普查,雖然當時沒有提出“大數據”詞眼,但當時的數據集已經龐大復雜到超出了傳統的處理技術和能力(Ohlhorst,2012)。②提出“大數據”詞眼,但不蘊含“大數據”現象。例如,有學者認為在公開場合首次提出“大數據”一詞可視為大數據源起,但是此觀點很快被有力的證據所推翻,如1984年Tilly發表的論文和1989年Larson發表的論文都指出了“big data”一詞,但與如今的“大數據”術語毫無關系,只是簡單的“big”和“data”的偶然組合。③提出“大數據”詞眼,并蘊含“大數據”現象。有學者認為1997年Cox和Ellsworth發表的論文《科學可視化的大數據管理》已相對準確地指出大數據是單個數據對象(或數據集)太大,無法用一般算法與技術進行處理和可用硬件進行存儲的數據,應是大數據源起的重要學術參考文獻(Wu et al.,2016)。
大數據精確地映射了人類社會活動的全景圖(Hacking,1991)。人們期望通過借助以計算機為基礎的數據分析技術來破解大數據世界運行的黑箱,以獲取對真實世界的理解,這背后的假設是數據量與精確性的交易。然而,當大數據處理能力遠超人類認知時,人類是否造就了打開黑箱的另一個黑箱?為保證對大數據系統的控制,大數據必須滿足人類的理解能力、推理能力和解釋能力。
第一,可理解。可理解指應用者對大數據分析系統具有完全的掌握能力。大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性,目前人們對大數據背后的物理意義缺乏理解、對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解(李國杰,2015)。只有充分理解數據類型、結構和模式,理解數據之間關聯的奧秘才可能打開從微觀到宏觀“涌現”規律的突破口;只有充分理解大數據技術涉及的算法的局限性以及應用者研究問題的邊界,才能把握這些算法以及研究問題的邊界會引致什么樣的誤差和偏向,進而決定對大數據分析結果施以多大程度的信任和限制。因此,認知大數據分析應當是人類和機器可以共同理解的,即人類與機器之間信息對稱。一方面,應用者要能夠理解數據訪問邊界、系統閾值和技術手段,并利用大數據分析的結果來促進自身的理解。另一方面,機器可以理解人類的意圖和研究問題的情境,并不斷擴展技術包容性和開放性。例如,各大平臺采用個性化協同推薦(Personalized Collaborative Recommender)算法追蹤用戶的每一個行為(如交易記錄、頁面瀏覽和評價等),為用戶智能推薦個性化信息。
第二,可推理??赏评碇冈谫Y源無限的條件下,應用者能夠通過自身認知推理過程,獲取與大數據分析呈現的相同結果。認知大數據的分析能將人類經驗空間的知識和智慧與數據空間的數據和信息相匹配、相關聯,推理數據之間的多模態、多層次和跨時空的關系。首先,人類根據獲取的大數據信息,在認知層面對大數據進行關聯、推理和總結,形成一種思維模型的復式框架以便大數據分析的有效利用。其次,面對爆炸式增長的大數據,人類對于大數據的認知是一個隨著人類知識經驗緩慢累進的動態過程,利用人類認知反饋系統,將有效推理過程保留,舍棄不適用于大數據分析的推理能力,形成認知推理能力螺旋式上升系統,同時也促進機器進行數據關聯和推理算法積累。例如,世界一級方程式賽車錦標賽中,每輛賽車的傳感器產生的數據可以幫助賽車手分析車輛部件的技術性能以及自身賽程反應。借助大數據從比賽結果推理出每一個近在咫尺且映射成功或失敗的促成性因素,繪制出賽程行為細粒推理圖(George et al.,2014)。
第三,可解釋??山忉屬x予大數據分析以現實意義。Glasersfeld(1998)指出相關性并非必然被拒絕,有效的相關性仍然可以作為解釋現實世界運行的重要補充機制。可解釋是大數據分析的重要體現之一,是分析結果被決策人員采信的前提。但這不是意味著對大數據分析的每一個步驟、大數據技術原理和實現細節進行解釋,而是在適當的時候提供說明或解釋,包括背后的邏輯和數據,使大數據分析后續行為和決策實現透明和可信,從而減輕人類的認知負擔。例如,有些研究者會通過“文字云”(Word Clouds)技術可視化權威期刊中的關鍵詞,以此來確定目前的研究趨勢以及熱點。但要確切地從眾多研究趨勢和熱點中確定自己未來研究方向,需要對其進行預判,并提供合理的解釋支撐研究導向。