- 大數(shù)據(jù)經(jīng)濟學
- 韓松主編
- 3449字
- 2024-06-28 17:52:34
1.1 萬物皆數(shù)
“數(shù)是萬物的本原”,微小似一粒塵、一只蟲、一片葉、一塊石、一枝梅、一縷煙、一陣風、一時雨,浩瀚如一座山、一片海、一彎月、點點星光、渺渺星云、茫茫宇宙,所有的一切都可以為“數(shù)”所描述。自然依據(jù)內(nèi)在的規(guī)律運轉(zhuǎn),自然的規(guī)律通過不斷重復試驗的方式為數(shù)據(jù)所揭示。
1.1.1 數(shù)的本原
數(shù)學文化史的研究表明,古代數(shù)學作為一個在文化系統(tǒng)里操作運演的子系統(tǒng),一開始就具有雙重功能,即數(shù)量性的功能和神秘性的功能。而不同民族文化所展示的數(shù)據(jù)或者數(shù)學都在特定的文化氛圍中有某些神秘性,并且不同民族數(shù)學的發(fā)展道路是各不相同的。
文字最早起源于大自然物體的形態(tài),但是在漫長的演化過程中,絕大多數(shù)文字都脫離本原,與原意沒有干系,變成毫無意義的字母與字符。英語、法語、德語、俄語、拉丁語等所有的非象形文字語種更甚,基本失去語言本來的意義與價值。[2]
依照中國古代文獻的記載,漢字的起源有多種說法,比如結(jié)繩、八卦、書契、巖畫、陶符、籌碼等,還有黃帝的史官倉頡造字的傳說。當然系統(tǒng)化的文字體系不可能由一個人創(chuàng)造出來,如果倉頡確有其人,應該是文字的整理者或者頒布者。
數(shù)字的起源如同文字的起源一樣古老。阿拉伯數(shù)字發(fā)源于古代印度,后來被阿拉伯人掌握、改進并且傳到西方。早期計數(shù)系統(tǒng)有:公元前3400年前后的古埃及象形數(shù)字;公元前2400年前后的巴比倫楔形數(shù)字;公元前1600年前后的中國甲骨文數(shù)字;公元前500年前后的希臘阿提卡數(shù)字;公元前500年前后的中國籌算數(shù)字;公元前300年前后的印度婆羅門數(shù)字以及年代不詳?shù)默斞艛?shù)字。其中巴比倫楔形數(shù)字采用六十進制、瑪雅數(shù)字采用二十進制,其他均采用十進制。計數(shù)系統(tǒng)的出現(xiàn)使人類文明向前邁進一大步,隨著生產(chǎn)力的持續(xù)發(fā)展和數(shù)字的持續(xù)完善,數(shù)學逐漸地發(fā)展起來。[3]
數(shù)學來源于生活并且高于生活,從形象的生產(chǎn)和生活中被抽象出來成為解決計算問題的學科和科學,具有一定的超前性。“萬物皆數(shù)”表明:所有事物的形態(tài)和運行,從底層來講都是把事物轉(zhuǎn)為數(shù)據(jù)化映射,事物規(guī)律都是由數(shù)學規(guī)律所決定的。“萬物皆數(shù)”是人類認知與改造世界持續(xù)的進步、從唯心主義走向唯物主義的必然。
數(shù)字只是一種符號化的用來表示某種特征的程度或者狀態(tài)的原始信息,沒有被應用到特定的場合。根據(jù)數(shù)字所代表的原始信息,建立適當?shù)臄?shù)學模型,經(jīng)過帶有指向性的加工,被應用到合適的場所,轉(zhuǎn)變?yōu)橛杏绊懙臄?shù)據(jù),從而幫助人們理解事物的本質(zhì)、完成特定的任務,才有實際的意義,這就是數(shù)字的數(shù)據(jù)化過程。
1.1.2 數(shù)據(jù)科學
凡是發(fā)生過的事件都會留下痕跡,而數(shù)據(jù)的作用則是將這些痕跡記錄下來。每天,當我們生活在社區(qū)、工作在辦公區(qū)、娛樂在電影院、鍛煉在健身房、消費在購物中心、出行在高速公路,享受著數(shù)據(jù)化生活的便利時,一切都顯得那么自然。每一個動作都被流量的數(shù)據(jù)和無盡的網(wǎng)絡串聯(lián)起來,隨時隨地都能看到數(shù)據(jù)的身影。
(1)含義和分類
數(shù)據(jù)(Data)是指對客觀事件進行記錄并且可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關系進行記載的物理符號或者組合,以文字、數(shù)字、圖像等多種形式存在。數(shù)據(jù)是未經(jīng)加工的原始素材、主體對客體進行觀察和表達的結(jié)果、對事實的邏輯歸納。
在計算機科學中,數(shù)據(jù)是所有能夠輸入計算機并且被程序處理的符號介質(zhì)的總稱。這些符號介質(zhì)是具有一定意義的數(shù)據(jù)、字母、符號和模擬量等,以二進制信息單元0、1的形式表示和存儲。計算機處理的對象十分廣泛,表示對象的數(shù)據(jù)也變得越來越復雜。[4]
在多數(shù)人的理解中,數(shù)字就是數(shù)據(jù)。其實不然,數(shù)據(jù)的范疇要大得多,包括數(shù)字、文字、圖像、聲音、視頻,甚至是動作、行為。數(shù)據(jù)的范疇隨著社會和經(jīng)濟的發(fā)展不斷演進,例如以前的文字和語言并不被認為是數(shù)據(jù),而在計算機出現(xiàn)后,已經(jīng)成為通信、翻譯等重要領域的核心數(shù)據(jù)。
數(shù)據(jù)分類就是把相同屬性或者特征的數(shù)據(jù)劃分到一起,形成不同的類別,以便通過不同的類別對數(shù)據(jù)進行查詢、識別、使用和保護;當然更多的是從管理業(yè)務的維度出發(fā),例如數(shù)據(jù)的來源、產(chǎn)業(yè)、事務、開放、共享等。
(2)信息和知識
“數(shù)據(jù)是信息的載體,信息是數(shù)據(jù)的含義。”隨著數(shù)據(jù)的不斷增長,經(jīng)過大量積累之后就形成數(shù)據(jù)資源。在數(shù)據(jù)資源中把蘊含的價值線索提取出來,即經(jīng)過加工處理后得到另一種形式的結(jié)構(gòu)化數(shù)據(jù)就是信息。例如,每個人看過一部電影后都有自己的感受,電影就是數(shù)據(jù),而經(jīng)過每個人大腦處理后的感受,就是信息。
信息是帶有判斷的表達,數(shù)據(jù)是反映事實的記錄。對于數(shù)據(jù)和信息的評價是有區(qū)別的:數(shù)據(jù)可以用準不準,而信息要用對不對。數(shù)據(jù)的表達通常只是有偏差,而信息表達很可能完全背離本質(zhì)。
數(shù)據(jù)是存在于計算機系統(tǒng)中的介質(zhì)符號;信息是自然界、人類社會及人類思維活動中存在和發(fā)生的現(xiàn)象;知識是人們在實踐中所獲得的認識和經(jīng)驗。數(shù)據(jù)可以作為信息和知識的符號或者載體,但是數(shù)據(jù)本身并不是信息或者知識。[5]
數(shù)據(jù)和信息是影響個體情勢判斷和整體協(xié)同行為的基本驅(qū)動性因素。信息本來應該并且可以是充分研究和科學論證后的嚴謹判斷,然而由于傳遞信息的主體無須對信息的對錯以及由此造成的負面結(jié)果承擔責任,社會的各種主體和個體出于不同的目的,總會想把各式各樣的信息傳遞到消費者面前,由此產(chǎn)生“信息混亂”和“信息矛盾”,也使得信息價值大幅度降低。往往由于缺乏足夠的、準確的數(shù)據(jù)來幫助我們評價事物,不得不習慣性使用信息來代替,導致的結(jié)果就是為獲得的信息所俘獲,造成“趕羊效應”(每一個個體就是一只羊,而傳遞出的信息就是那根趕羊的竿子)。[6]
(3)數(shù)據(jù)化和數(shù)據(jù)科學
以色列歷史學家尤瓦爾·赫拉利在《未來簡史》中寫道:“人類將進入數(shù)據(jù)主義(Dataism)時代,在這個時代,每個人都應該信奉這樣一條格言,如果你經(jīng)歷某件事,把它記錄下來。如果你記錄某件事,把它上傳。如果你上傳某件事并且分享它。這意味著每個人都成為數(shù)據(jù)的采集、處理和分享者。這當然是數(shù)據(jù)從業(yè)者所向往的一種理想狀態(tài)。”
數(shù)據(jù)在各行各業(yè)的影響力正與日俱增,充斥在生產(chǎn)和生活的方方面面,比如金融、醫(yī)療、制藥、生物信息、公共福利、政府、教育、零售、網(wǎng)絡購物、通信、瀏覽新聞、收聽在線音樂、搜索、在網(wǎng)上表達觀點。這些行為都會被記錄在案,變成一個個字節(jié)存儲起來。對線上數(shù)據(jù)和線下數(shù)據(jù)的采集方式不斷革新,人們的日常行為也被“數(shù)據(jù)化”(Datafication)。
數(shù)據(jù)化無所不在,從作為實驗對象參與到社交媒體實驗中,到接受全面調(diào)查,再到被人秘密跟蹤,這些都是被數(shù)據(jù)化的典型案例,代表數(shù)據(jù)化過程中個人意愿從高到低的各種情形。必須尊重他人的意愿——是否自愿與人們分享自己的數(shù)據(jù)。比如在網(wǎng)上為某個人或者某件東西“點贊”時,人們就算不是故意讓自己的行為“被數(shù)據(jù)化”,至少也清楚自己的行為會被記錄下來。有時卻不然,比如只是隨意瀏覽一些網(wǎng)站,然而我們的行為卻被網(wǎng)站上的cookie記錄下來;再如人們只是走在大街上,就會被各種傳感器、攝像頭監(jiān)測,或者被谷歌眼鏡拍攝,行為被作為數(shù)據(jù)存儲下來,但是這種數(shù)據(jù)化并非出于個人的意愿。
數(shù)據(jù)科學是一門新時代的混合交叉學科,使用科學的理論、算法和過程從結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)中獲取知識與洞見、發(fā)現(xiàn)隱藏的模式,體現(xiàn)應用驅(qū)動基礎理論創(chuàng)新的特點,成為除實驗、理論模型、計算模擬之外的第四大科學發(fā)現(xiàn)手段。[7]
數(shù)據(jù)科學即“數(shù)據(jù)的科學”和“科學的數(shù)據(jù)”,包括一整套的技能和技術,即數(shù)學、計算、視覺、分析、優(yōu)化、統(tǒng)計、試驗、問題界定、創(chuàng)建假設、選擇算法、模型建立、結(jié)果檢驗與可視化等,涉及三個不同的領域,即編程領域(計算機語言知識、語言庫、設計模式、體系結(jié)構(gòu)等),數(shù)學(代數(shù)、微積分等)和統(tǒng)計學領域,數(shù)據(jù)領域(特定領域的知識,如醫(yī)療、金融、工業(yè)等)。
數(shù)據(jù)科學的知識體系主要以統(tǒng)計學、機器學習、數(shù)據(jù)可視化以及某一領域?qū)I(yè)知識為理論基礎,其主要研究內(nèi)容包括數(shù)據(jù)科學基礎理論、數(shù)據(jù)加工、數(shù)據(jù)計算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開發(fā)。
數(shù)據(jù)產(chǎn)品在數(shù)據(jù)科學中具有特殊的含義——基于數(shù)據(jù)開發(fā)的產(chǎn)品的統(tǒng)稱。數(shù)據(jù)產(chǎn)品開發(fā)是數(shù)據(jù)科學的主要研究使命之一,也是數(shù)據(jù)科學區(qū)別于其他科學的重要因素。與傳統(tǒng)產(chǎn)品開發(fā)不同的是,數(shù)據(jù)產(chǎn)品開發(fā)具有以數(shù)據(jù)為中心、多樣性、層次性和增值性等特征。數(shù)據(jù)產(chǎn)品開發(fā)能力也是數(shù)據(jù)科學家的主要競爭力。
數(shù)據(jù)科學日益變得有實用性和趣味性,不僅僅是因為數(shù)據(jù)本身的體量增大,更多的是因為數(shù)據(jù)本身成為構(gòu)建實時數(shù)據(jù)產(chǎn)品的關鍵要素。在互聯(lián)網(wǎng)上,有亞馬遜(Amazon)的商品推薦系統(tǒng)、臉書(Facebook)的朋友推薦系統(tǒng),還有其他的電影、音樂等推薦系統(tǒng);在金融業(yè),有信用評級和篩選系統(tǒng)、交易算法和模型;在教育領域,可以根據(jù)學生差別量身定制個性化教學;在政府機構(gòu),則意味著以數(shù)據(jù)為基礎去制定和實施公共政策。[8]