- 大數據技術原理與應用(第2版)
- 林子雨編著
- 5711字
- 2019-07-30 13:20:23
1.3 大數據的影響
大數據對科學研究、思維方式和社會發展都具有重要而深遠的影響。在科學研究方面,大數據使得人類科學研究在經歷了實驗、理論、計算3種范式之后,迎來了第四種范式——數據;在思維方式方面,大數據具有“全樣而非抽樣、效率而非精確、相關而非因果”三大顯著特征,完全顛覆了傳統的思維方式;在社會發展方面,大數據決策逐漸成為一種新的決策方式,大數據應用有力促進了信息技術與各行業的深度融合,大數據開發大大推動了新技術和新應用的不斷涌現;在就業市場方面,大數據的興起使得數據科學家成為熱門人才;在人才培養方面,大數據的興起將在很大程度上改變我國高校信息技術相關專業的現有教學和科研體制。
1.3.1 大數據對科學研究的影響
圖靈獎獲得者、著名數據庫專家吉姆·格雷(Jim Gray)博士觀察并總結認為,人類自古以來在科學研究上先后歷經了實驗、理論、計算和數據四種范式(見圖1-6),具體如下。
1.第一種范式:實驗科學
在最初的科學研究階段,人類采用實驗來解決一些科學問題,著名的比薩斜塔實驗就是一個典型實例。1590年,伽利略在比薩斜塔上做了“兩個鐵球同時落地”的實驗,得出了重量不同的兩個鐵球同時下落的結論,從此推翻了亞里士多德“物體下落速度和重量成比例”的學說,糾正了這個持續了1 900年之久的錯誤結論。

圖1-6 科學研究的4種范式
2.第二種范式:理論科學
實驗科學的研究會受到當時實驗條件的限制,難以完成對自然現象更精確的理解。隨著科學的進步,人類開始采用各種數學、幾何、物理等理論,構建問題模型和解決方案。比如,牛頓第一定律、牛頓第二定律、牛頓第三定律構成了牛頓力學的完整體系,奠定了經典力學的概念基礎,它的廣泛傳播和運用對人們的生活和思想產生了重大影響,在很大程度上推動了人類社會的發展與進步。
3.第三種范式:計算科學
隨著1946年人類歷史上第一臺計算機ENIAC的誕生,人類社會開始步入計算機時代,科學研究也進入了一個以“計算”為中心的全新時期。在實際應用中,計算科學主要用于對各個科學問題進行計算機模擬和其他形式的計算。通過設計算法并編寫相應程序輸入計算機運行,人類可以借助于計算機的高速運算能力去解決各種問題。計算機具有存儲容量大、運算速度快、精度高、可重復執行等特點,是科學研究的利器,推動了人類社會的飛速發展。
4.第四種范式:數據密集型科學
隨著數據的不斷累積,其寶貴價值日益得到體現,物聯網和云計算的出現,更是促成了事物發展從量變到質變的轉變,使人類社會開啟了全新的大數據時代。這時,計算機將不僅僅能做模擬仿真,還能進行分析總結,得到理論。在大數據環境下,一切將以數據為中心,從數據中發現問題、解決問題,真正體現數據的價值。大數據將成為科學工作者的寶藏,從數據中可以挖掘未知模式和有價值的信息,服務于生產和生活,推動科技創新和社會進步。雖然第三種方式和第四種方式都是利用計算機來進行計算,但是二者還是有本質的區別的。在第三種研究范式中,一般是先提出可能的理論,再搜集數據,然后通過計算來驗證。而對于第四種研究范式,則是先有了大量已知的數據,然后通過計算得出之前未知的理論。
1.3.2 大數據對思維方式的影響
維克托·邁爾·舍恩伯格在《大數據時代:生活、工作與思維的大變革》一書中明確指出,大數據時代最大的轉變就是思維方式的3種轉變:全樣而非抽樣、效率而非精確、相關而非因果。
1.全樣而非抽樣
過去,由于數據存儲和處理能力的限制,在科學分析中,通常采用抽樣的方法,即從全集數據中抽取一部分樣本數據,通過對樣本數據的分析來推斷全集數據的總體特征。通常,樣本數據規模要比全集數據小很多,因此,可以在可控的代價內實現數據分析的目的。現在,我們已經迎來大數據時代,大數據技術的核心就是海量數據的存儲和處理,分布式文件系統和分布式數據庫技術提供了理論上近乎無限的數據存儲能力,分布式并行編程框架MapReduce提供了強大的海量數據并行處理能力。因此,有了大數據技術的支持,科學分析完全可以直接針對全集數據而不是抽樣數據,并且可以在短時間內迅速得到分析結果,速度之快,超乎我們的想象。就像前面我們已經提到過的,谷歌公司的Dremel可以在2~3s內完成PB級別數據的查詢。
2.效率而非精確
過去,我們在科學分析中采用抽樣分析方法,就必須追求分析方法的精確性,因為抽樣分析只是針對部分樣本的分析,其分析結果被應用到全集數據以后,誤差會被放大,這就意味著,抽樣分析的微小誤差被放大到全集數據以后,可能會變成一個很大的誤差。因此,為了保證誤差被放大到全集數據時仍然處于可以接受的范圍,就必要確保抽樣分析結果的精確性。正是由于這個原因,傳統的數據分析方法往往更加注重提高算法的精確性,其次才是提高算法效率。現在,大數據時代采用全樣分析而不是抽樣分析,全樣分析結果就不存在誤差被放大的問題。因此,追求高精確性已經不是其首要目標;相反,大數據時代具有“秒級響應”的特征,要求在幾秒內就迅速給出針對海量數據的實時分析結果,否則就會喪失數據的價值,因此,數據分析的效率成為關注的核心。
3.相關而非因果
過去,數據分析的目的,一方面是解釋事物背后的發展機理,比如,一個大型超市在某個地區的連鎖店在某個時期內凈利潤下降很多,這就需要IT部門對相關銷售數據進行詳細分析找出發生問題的原因;另一方面是用于預測未來可能發生的事件,比如,通過實時分析微博數據,當發現人們對霧霾的討論明顯增加時,就可以建議銷售部門增加口罩的進貨量,因為人們關注霧霾的一個直接結果是,大家會想到購買一個口罩來保護自己的身體健康。不管是哪個目的,其實都反映了一種“因果關系”。但是,在大數據時代,因果關系不再那么重要,人們轉而追求“相關性”而非“因果性”。比如,我們去淘寶網購物時,當我們購買了一個汽車防盜鎖以后,淘寶網還會自動提示你,與你購買相同物品的其他客戶還購買了汽車坐墊,也就是說,淘寶網只會告訴你“購買汽車防盜鎖”和“購買汽車坐墊”之間存在相關性,但是并不會告訴你為什么其他客戶購買了汽車防盜鎖以后還會購買汽車坐墊。
1.3.3 大數據對社會發展的影響
大數據將會對社會發展產生深遠的影響,具體表現在以下幾個方面:大數據決策成為一種新的決策方式,大數據應用促進信息技術與各行業的深度融合,大數據開發推動新技術和新應用的不斷涌現。
1.大數據決策成為一種新的決策方式
根據數據制定決策,并非大數據時代所特有。從20世紀90年代開始,數據倉庫和商務智能工具就開始大量用于企業決策。發展到今天,數據倉庫已經是一個集成的信息存儲倉庫,既具備批量和周期性的數據加載能力,也具備數據變化的實時探測、傳播和加載能力,并能結合歷史數據和實時數據實現查詢分析和自動規則觸發,從而提供對戰略決策(如宏觀決策和長遠規劃等)和戰術決策(如實時營銷和個性化服務等)的雙重支持。但是,數據倉庫以關系數據庫為基礎,無論是數據類型還是數據量方面都存在較大的限制。現在,大數據決策可以面向類型繁多的、非結構化的海量數據進行決策分析,已經成為受到追捧的全新決策方式。比如,政府部門可以把大數據技術融入“輿情分析”,通過對論壇、微博、微信、社區等多種來源數據進行綜合分析,弄清或測驗信息中本質性的事實和趨勢,揭示信息中含有的隱性情報內容,對事物發展做出情報預測,協助實現政府決策,有效應對各種突發事件。
2.大數據應用促進信息技術與各行業的深度融合
有專家指出,大數據將會在未來10年改變幾乎每一個行業的業務功能。互聯網、銀行、保險、交通、材料、能源、服務等行業領域,不斷累積的大數據將加速推進這些行業與信息技術的深度融合,開拓行業發展的新方向。比如,大數據可以幫助快遞公司選擇運費成本最低的最佳行車路徑,協助投資者選擇收益最大化的股票投資組合,輔助零售商有效定位目標客戶群體,幫助互聯網公司實現廣告精準投放,還可以讓電力公司做好配送電計劃確保電網安全等。總之,大數據所觸及的每個角落,我們的社會生產和生活都會因之而發生巨大且深刻的變化。
3.大數據開發推動新技術和新應用的不斷涌現
大數據的應用需求是大數據新技術開發的源泉。在各種應用需求的強烈驅動下,各種突破性的大數據技術將被不斷提出并得到廣泛應用,數據的能量也將不斷得到釋放。在不遠的將來,原來那些依靠人類自身判斷力的領域應用,將逐漸被各種基于大數據的應用所取代。比如,今天的汽車保險公司,只能憑借少量的車主信息,對客戶進行簡單類別劃分,并根據客戶的汽車出險次數給予相應的保費優惠方案,客戶選擇哪家保險公司都沒有太大差別。隨著車聯網的出現,“汽車大數據”將會深刻改變汽車保險業的商業模式,如果某家商業保險公司能夠獲取客戶車輛的相關細節信息,并利用事先構建的數學模型對客戶等級進行更加細致的判定,給予更加個性化的“一對一”優惠方案,那么毫無疑問,這家保險公司將具備明顯的市場競爭優勢,獲得更多客戶的青睞。
1.3.4 大數據對就業市場的影響
大數據的興起使得數據科學家成為熱門人才。2010年的時候,在高科技勞動力市場上還很難見到數據科學家的頭銜,但此后,數據科學家逐漸發展成為市場上最熱門的職位之一,具有廣闊發展前景,并代表著未來的發展方向。
互聯網企業和零售、金融類企業都在積極爭奪大數據人才,數據科學家成為大數據時代最緊缺的人才。據麥肯錫預測,到2018年,僅美國本土就可能缺少14萬~19萬個具備數據深入分析能力的專業人員,能夠通過分析大數據支撐企業做出有效決策的數據管理人員和分析師,也大概存在150萬人的缺口。國內有大數據專家估算過,5年內國內的大數據人才缺口會達到130萬,以大數據應用較多的互聯網金融為例,這一行業每年增速達到4倍,屆時,僅互聯網金融需要的大數據人才就是現在需求的4倍以上。與此同時,大數據人才的薪資水平也在“水漲船高”,根據第四屆中國貴州人才博覽會發布的《全國大數據人才需求指數報告》,2016年2月份貴陽大數據人才月薪已逼近8 000元。
根據中橋調研咨詢2013年7月針對中國市場的一次調研結果顯示,中國用戶目前還主要局限在結構化數據分析方面,尚未進入通過對半結構化和非結構化數據進行分析、捕捉新的市場空間的階段。但是,大數據中包含了大量的非結構化數據,未來將會產生大量針對非結構化數據分析的市場需求,因此,未來中國市場對掌握大數據分析專業技能的數據科學家的需求會逐年遞增。
盡管有少數人認為未來有更多的數據會采用自動化處理,會逐步降低對數據科學家的需求,但是仍然有更多的人認為,隨著數據科學家給企業所帶來的商業價值的日益體現,市場對數據科學家的需求會越發旺盛。
1.3.5 大數據對人才培養的影響
大數據的興起將在很大程度上改變中國高校信息技術相關專業的現有教學和科研體制。一方面,數據科學家是一個需要掌握統計、數學、機器學習、可視化、編程等多方面知識的復合型人才,在中國高校現有的學科和專業設置中,上述專業知識分布在數學、統計和計算機等多個學科中,任何一個學科都只能培養某個方向的專業人才,無法培養全面掌握數據科學相關知識的復合型人才。另一方面,數據科學家需要大數據應用實戰環境,在真正的大數據環境中不斷學習、實踐并融會貫通,將自身技術背景與所在行業業務需求進行深度融合,從數據中發現有價值的信息,但是目前大多數高校還不具備這種培養環境,不僅缺乏大規模基礎數據,也缺乏對領域業務需求的理解。鑒于上述兩個原因,目前國內的數據科學家人才并不是由高校培養的,而主要是在企業實際應用環境中通過邊工作邊學習的方式不斷成長起來的,其中,互聯網領域集中了大多數的數據科學家人才。
在未來5~10年,市場對數據科學家的需求會日益增加,不僅互聯網企業需要數據科學家,類似金融、電信這樣的傳統企業在大數據項目中也需要數據科學家。由于高校目前尚未具備大量培養數據科學家的基礎和能力,傳統企業很可能會從互聯網行業“挖墻角”,來滿足企業發展對數據分析人才的需求,繼而造成用人成本高企,制約企業的成長壯大。因此,高校應該秉承“培養人才、服務社會”的理念,充分發揮科研和教學綜合優勢,培養一大批具備數據分析基礎能力的數據科學家,有效緩解數據科學家的市場缺口,為促進經濟社會發展做出更大貢獻。目前,國內很多高校開始設立大數據專業或者開設大數據課程,加快推進大數據人才培養體系的建立。2014年,中國科學院大學開設首個“大數據技術與應用”專業方向,面向科研發展及產業實踐,培養信息技術與行業需求結合的復合型大數據人才;2014 年清華大學成立數據科學研究院,推出多學科交叉培養的大數據碩士項目;2015年10月,復旦大學大數據學院成立,在數學、統計學、計算機、生命科學、醫學、經濟學、社會學、傳播學等多學科交叉融合的基礎上,聚焦大數據學科建設、研究應用和復合型人才培養;2016年9月,華東師范大學數據科學與工程學院成立,新設置的本科專業“數據科學與工程”,是華東師大除“計算機科學與技術”和“軟件工程”以外,第三個與計算機相關的本科專業。廈門大學于2013年開始在研究生層面開設大數據課程,并建設了國內高校首個大數據課程公共服務平臺。
高校培養數據科學家人才需要采取“兩條腿”走路的策略,即“引進來”和“走出去”。所謂“引進來”,是指高校要加強與企業的緊密合作,從企業引進相關數據,為學生搭建起接近企業應用實際的、仿真的大數據實戰環境,讓學生有機會理解企業業務需求和數據形式,為開展數據分析奠定基礎,同時從企業引進具有豐富實戰經驗的高級人才,承擔起數據科學家相關課程教學任務,切實提高教學質量、水平和實用性。所謂“走出去”,是指積極鼓勵和引導學生走出校園,進入互聯網、金融、電信等具備大數據應用環境的企業去開展實踐活動,同時努力加強產、學、研合作,創造條件讓高校教師參與到企業大數據項目中,實現理論知識與實際應用的深層次融合,鍛煉高校教師的大數據實戰能力,為更好培養數據科學家人才奠定基礎。
在課程體系的設計上,高校應該打破學科界限,設置跨院系跨學科的“組合課程”,由來自計算機、數學、統計等不同院系的教師構建聯合教學師資力量,多方合作,共同培養具備大數據分析基礎能力的數據科學家,使其全面掌握包括數學、統計學、數據分析、商業分析和自然語言處理等在內的系統知識,具有獨立獲取知識的能力,并具有較強的實踐能力和創新意識。
- R Data Mining
- 協作機器人技術及應用
- Cloud Analytics with Microsoft Azure
- 數據庫原理與應用技術學習指導
- 流處理器研究與設計
- Hands-On Cybersecurity with Blockchain
- Mastering Machine Learning Algorithms
- SharePoint 2010開發最佳實踐
- 大型數據庫管理系統技術、應用與實例分析:SQL Server 2005
- Photoshop CS3圖層、通道、蒙版深度剖析寶典
- 觸控顯示技術
- 高維聚類知識發現關鍵技術研究及應用
- JavaScript典型應用與最佳實踐
- RedHat Linux用戶基礎
- 與人共融機器人的關節力矩測量技術