1.2 大數據崛起
2014年3月,阿里巴巴集團創始人馬云發表演講,提出一個新觀點:“人類正從IT時代走向DT時代。”所謂IT,就是Information Technology,即信息技術;所謂DT,就是Data Technology,即數據技術。IT時代是以自我控制、自我管理為主,而DT時代,是以服務大眾、激發生產力為主。這兩者之間不是技術的差異,而是思想觀念的差異。[9]
1.2.1 三次浪潮的三朵浪花
“大數據”,或稱“巨量數據”“海量數據”“大資料”的定義:第一,維基百科(Wikipedia)認為,所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理并且整理成為人類所能解讀的信息;第二,高德納(Gartner)咨詢機構認為,需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。[10]
大數據具有“4V1O”的特征,即規模性(Volume)、多樣性(Varity)、高速性(Velocity)、價值性(Value)和可操作性(Operability)。
一是規模性。數據量爆發性增長,達到TB甚至PB級別。例如在2020年,美國社交媒體網站Facebook有超過26億名活躍消費者,每天產生日志數據超過300TB(1TB=1024GB),每年產生資料180 PB(1PB=1024TB)。龐大的數據量是無法單純憑借人工處理的,需要智能的算法、強大的數據處理平臺和處理技術。
二是多樣性。廣泛的來源決定了數據類型的多樣性:①結構化是數據之間因果關系強,比如信息管理系統數據、醫療系統數據等;②非結構化是數據之間沒有因果關系,比如音頻、圖片、視頻等;③半結構化(也被稱作多結構化)是數據之間因果關系弱,由大量無價值的數據包裹著有價值的數據,比如網頁數據、郵件記錄等。
三是高速性。大數據的交換和傳播是通過互聯網、局域網、物聯網、云計算等方式實現的,快捷性遠遠超過傳統媒介的信息交換和傳播速度。數據的增長速度和處理速度是大數據高速性的重要體現,大數據對處理數據的響應速度有著更為嚴格的要求:實時分析而非批量分析,數據輸入、處理與丟棄立刻見效,幾乎無延遲。
四是價值性。在實際中產生的大量數據是冗余無效的或者低密度價值的。大數據最大的價值在于從不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測有價值的內容。比如淘寶電商平臺每天產生的大量交易數據,通過特定的算法分析出具有某些特征的人喜歡什么類型的商品,然后推薦其喜歡的商品。[11]
五是可操作性。根據特定任務的原則、方法、標準,把獲取的數據轉換為可分類、可識別、可檢驗、可觀測的項目,遵循一定的模式在計算機中得到快速、正確的處理,幫助決策者制訂行動計劃,實現具體目標,這也要求所獲取的數據具有一定程度的完整性和連續性。為了使處理結果更具可讀性,通常要進行可視化處理。
信息化概念,最早是由美國社會學家丹尼爾·貝爾于1959年提出的“后工業化社會”;后來美國經濟學者弗里茨·馬克盧普于1962年提出“知識產業”,“后工業化社會”就是“信息社會”,“知識產業”就是“信息產業”。誰都未曾料到,自世界上第一臺通用計算機ENIAC于1946年2月14日在美國賓夕法尼亞大學誕生,在不到一個世紀的時間內,掀起了一次高過一次的世界信息化浪潮。
信息化第一次浪潮:在1981年,第一臺個人計算機誕生,標志著進入了以數據化為主要特征的自動化階段。信息技術第一次揭開神秘的面紗,開始應用在人們的工作里,人們不再使用各種費時費力的紙質審批,而是采用電子化的方式進行業務處理。信息化可以記錄所有環節、各個節點的數據,能做到隨時可查詢、可追溯、可管理。
信息化第二次浪潮:在1992年,美國總統克林頓提出建設“信息高速公路”,標志著進入了以互聯網應用為主要特征的網絡化階段,涌現出大量的數據。從1995年開始,互聯網開啟大規模商用進程,加速數據的流通與匯聚,促使數據資源體量的指數式增長,數據呈現出海量、多樣、時效、低價值密度等一系列特征。
信息化第三次浪潮:在2006年,“云計算”出現,標志著數據的存儲和調取速度得到加強,進入了以數據驅動的智能化應用階段。垂直應用于各個產業的數據算法能力和強大的數據應用端平臺建設顯得特別重要。隨著互聯網向物聯網(含工業互聯網)延伸而覆蓋物理世界,“人機物”三元融合的發展態勢已然形成,全方位、全視角展現事物的演化歷史和當前狀態,伴隨著5G時代的到來,信息化的浪潮會帶來更多值得期待的想象空間。[12]
信息化第三次浪潮的重點突破是自動化的數據產生和收集方式,通過信息感知和采集終端,如RFID射頻、傳感器、社交網絡交互和移動互聯網等,獲得的各種類型的結構化、半結構化和非結構化海量數據,再加上以云計算為代表的強大的計算能力,實現了從提高生產效率向更高級智能階段的自然生長。
大數據是信息技術發展的必然產物,作為一種概念和思潮由計算領域發端,之后逐漸延伸到科學和商業領域。第一次大的飛躍是運營式系統開始廣泛使用數據庫,第二次大的飛躍是以消費者原創內容為主的Web 2.0,第三次大的飛躍是感知式系統的廣泛使用最終實現大數據的產生,這一階段是以數據的深度挖掘和融合應用為主要特征的智能化階段(信息化3.0)。在“人機物”三元融合的大背景下,以“萬物均需互聯、一切皆可編程”為目標,數據化、網絡化和智能化呈融合發展新態勢,如圖1-1所示。

圖1-1 從認知神經科學的角度分析大數據、云計算、物聯網和傳統互聯網的關系
資料來源:劉鋒.從認知神經科學的角度分析物聯網、云計算、大數據和互聯網的關系[EB/OL].科學網博客,https://blog.csdn.net/rkjava/article/details/103935461,2013-05-20.
大數據、云計算、物聯網被稱為信息化第三次浪潮的“三朵浪花”。三者互為基礎:物聯網產生大數據,大數據需要云計算。物聯網就是物物相連的互聯網,云計算解決萬物互聯帶來的巨大數據量。
物聯網(Internet of Things,IoT)是指通過信息承載體和傳感設備,按照協議,把任何物體與網絡連接,物體通過信息傳播媒介進行信息交換和通信,以實現智能化識別、定位、跟蹤、監管、互聯互通等功能。[13]
云計算(Cloud Computing)是指通過網絡“云”把巨大的數據計算處理程序分解成無數個小程序,然后通過多部服務器組成的系統進行處理和分析,得到結果并且返回給消費者,“云”實質上就是一個網絡。[14]
1.2.2 數據科學家
谷歌公司首席經濟學者哈爾·瓦里安在2009年說道:“下一個十年最有吸引力的工作就是統計學,其能夠獲取并且處理數據,從中得到有用信息并將其圖形化,使人們得以理解,這將是非常重要的技能。”此處他所稱的“統計學家”,實際上是能夠提取大數據集的信息,然后展現給非數據專業的那些人,也可稱之為數據科學家(Data Scientists)或者是數據極客(Data Geek)。[15]
數據科學崛起的原因之一是技術進步,這使數據科學家容易獲得便捷的上手工具和廣泛的專業知識。數據科學自然定義數據科學家的工作范圍,他們的技能涵蓋計算機、數學和統計學、圖形可視化等三個方面。
特別是數據可視化可以快速地把散亂的數據轉換為深入的洞察力,告別單純依靠直覺做出無把握決策的方式,發現隱藏的模式并做出明智的決策,通過理解信息并與他人合作以更快地激發洞察力和發現數據模式,組織可以快速做出基于數據驅動的決策。
數據科學家立足于科學,但不止于科學。從數據中提取出信息無疑是重要且有意義的過程,但是這還遠遠不夠。大數據分析的終極目標是解決問題、實現價值。而從信息到具體應用領域的知識,進而應用所得知識創造價值,這兩步都是需要一些藝術的,更需要一點兒想象力。
數據科學家=數據+科學+藝術家=用數據和科學從事藝術創作的人
數據、數據組合、數據活性的價值是不可限量的,挖掘這種價值就像淘金一樣,需要數據科學家進行搜索、采集、篩選、處理、儲存、共享等工作。與傳統的統計分析師或者寫代碼的程序員相比,數據科學家的優勢在于業務全能型,具備編程、業務分析洞察、數據解讀等三種能力。統計分析師通常只具備其中的兩樣,即業務分析洞察和數據解讀,程序員通常也只具備其中一樣或者兩樣,即編程和業務分析洞察能力。[16]
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的應用數據中,提取隱含在其中的、事先不知道的但是有潛在的有用信息和知識的過程,通常與計算機科學有關。通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現目標,核心是利用算法模型對預處理后的數據進行訓練,訓練后獲得數據模型,如圖1-2所示。

圖1-2 從數據化到決策支持的數據挖掘過程
資料來源:子一.什么是數據科學?[EB/OL].知乎,https://zhuanlan.zhihu.com/p/24758369,2021-04-29.
數據挖掘不再是大企業的專利,開源化潮流使得中小企業或者個人也能夠輕松地獲取關鍵算法,物聯網和云計算使得數據消費者擁有充足且廉價的計算能力,可以在短時間內分析海量數據,在互聯網上更有豐富的課程和經驗分享。實際上,數據科學的大門是敞開的,每個人都可以成為數據科學家。
[1]田之緣孵化園.大數據時代[EB/OL].百度百科,https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%97%B6%E4%BB%A3/4644597?fr=aladdin,2023-02-20.
[2]每天一點.文字的起源[EB/OL].搜狐網,https://www.sohu.com/a/326652580_120111916,2019-07-13.
[3]米勒君i.數據[EB/OL].科普中國·科普百科,https://baike.baidu.com/item/%E6%95%B0%E5%AD%97/6204?fr=aladdin,2022-02-23.
[4]青燈夜游.什么叫數據?[EB/OL].PHP中文網,https://www.PHP.cn/faq/464044.html,2022-03-23.
[5]子一.什么是數據科學?[EB/OL].知乎,https://zhuanlan.zhihu.com/p/24758369,2021-04-29.
[6]智慧康師兄.論信息與數據的區別[EB/OL].知乎,https://zhuanlan.zhihu.com/p/143193443,2020-05-24.
[7]朝樂門,邢春曉,張勇.數據科學研究的現狀與趨勢全解[EB/OL].知乎,https://zhuanlan.zhihu.com/p/421871324,2021-10-15.
[8]惹事的兔子.什么是數據科學?[EB/OL].簡書,https://www.jianshu.com/p/b0722617190d,2016-08-23.
[9]酷頭叮叮.DT時代[EB/OL].百度百科,https://baike.baidu.com/item/DT%E6%97%B6%E4%BB%A3/16236625?fr=aladdin,2021-12-08.
[10]sec_cn.大數據[EB/OL].科普中國·科學百科,https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941?fr=aladdin,2021-12-04.
[11]花降如雪.大數據的特點是什么?[EB/OL].百度,https://baijiahao.baidu.com/s?id=1726520331205219567&wfr=spider&for=pc,2022-03-06.
[12]零點有數.信息化經歷幾次浪潮,才到現在的數據智能時代?未來又是朝著什么方向發展?[EB/OL].知乎,https://www.zhihu.com/question/348053664/answer/837493619,2019-09-27.
[13]Mxxyzz.物聯網概念[EB/OL].百度百科,https://baike.baidu.com/item/%E7%89%A9%E8%81%94%E7%BD%91%E6%A6%82%E5%BF%B5/2048181?fr=aladdin,2021-12-13.
[14]關少.云計算[EB/OL].百度百科,https://baike.baidu.com/item/%E4%BA%91%E8%AE%A1%E7%AE%97/9969353?fr=aladdin,2022-03-24.
[15]Liam.什么是數據科學家[EB/OL].知乎,https://zhuanlan.zhihu.com/p/157909951,2020-07-10.
[16]惹事的兔子.什么是數據科學?[EB/OL].簡書,https://www.jianshu.com/p/b0722617190d,2016-08-23.
- 2020年翻譯碩士(MTI)英語翻譯基礎考研真題與典型題詳解
- 2020年江西公務員錄用考試專項教材:言語理解與表達【考點精講+典型題(含歷年真題)詳解】
- 2020年西藏自治區軍轉干部安置考試《申論》題庫【真題精選+章節題庫+模擬試題】
- 安全行為學
- 3ds Max+VRay動畫制作:建模、渲染與合成(全彩微課版)
- 2020年全國碩士研究生招生考試臨床醫學綜合能力(中醫)中醫診斷學考點歸納與歷年真題詳解
- 陳剛《網絡廣告》筆記和課后習題詳解
- 國際貿易實務(英文版)
- 中華商業文化(微課版)
- 張國慶《公共政策分析》筆記和課后習題詳解
- 平新喬《微觀經濟學十八講》課后習題詳解
- 生物質熱化學轉化原理及高效利用技術
- 幼師手工(第3版)
- 中學生出國留學早知道
- 當代中國公務員制度(第二版)