官术网_书友最值得收藏!

1.1 數據科學概述

1.1.1 數據的力量

世界著名未來學家托夫勒曾說改變這個世界的力量有三種:暴力、知識、金錢,而如今我們的世界正在被第四種力量改變,那就是數據!

今天隨著計算機技術的發展,數據正日益凸顯其價值。工業、農業、服務業等各行業的行為以數據形式記錄下來,人們的日常生活也被“數據化”,越來越多的政府、企業意識到數據正在成為組織最重要的資產,數據分析解讀的能力成為組織的核心競爭力。數據分析幫助政府、企業、個人更好地洞察事實,改善計劃和決策,反過來分析結果又影響了組織和個人的行為,甚至在一定程度上左右社會的未來。下面我們通過一些實例來認識今天數據對社會方方面面的影響。

隨著互聯網和信息系統的發展,政府機構匯集了醫療健康、城鎮交通、義務教育、稅收稽查、社會治理等各方面的數據。通過這些數據,政府能快速地獲取關鍵、準確的信息,改進各項政策和工作,節約政府部門的治理時間、人力成本,也更新了治理思路和模式。

【例1-1】 杭州公交借助共享單車軌跡改善公交線路。

杭州公交集團發現286B路公交線路,在某兩站每天聚集著數百輛、最多時上千輛共享單車,雜亂地停在人行道、非機動車道甚至站臺、行車道上。通過分析共享單車的出行軌跡,杭州公交集團發現了單車主要社區來源,對286B公交車的線路進行優化,調整了首末班時間、發車頻率,將很多需要騎行到車站的乘客直接送到了家門口。新線路緩解了區域出行壓力,也疏導了共享單車密集可能帶來的道路隱患。

社會經濟的發展和繁榮,依賴于全社會企業的總體經營狀況。在企業日常運營中,每天都產生大量的數據,對企業的運營和發展的決策起到重大作用。通過分析這些數據,企業能夠正確地了解目前經營現狀、及時發現存在的隱患并分析原因,進一步對未來的發展趨勢進行預測,進而制定有效的計劃、戰略決策。

【例1-2】 金融機構借助信用卡人群數據分析,改善信貸決策。

根據新浪整理的市場數據發現,信用卡的主流人群、活躍用戶,70%是18~35歲的年輕人。雖然18~24歲的年輕人有較普遍的透支消費習慣,但透支消費能力差,收入較低且不穩定,他們的風險最高。25~35歲的年輕人透支消費主要來源于房子、車子、孩子等剛性需求,存在長期大額信用貸款的巨大需求,且還貸能力強。數據顯示,年輕男性的失信風險是女性的1.3倍。車主人群是無車人群信貸需求的1.3倍,但風險卻低了65%。所以目前金融信貸業務偏愛25~35歲人群、女性白領、車主等人群,為吸引這類人群制定了不同的信貸方案,拿出相應的權益和活動吸引他們信貸消費。

【例1-3】 圖像數據分析輔助放射科醫生讀片,提高醫療效率。

近年來,醫療診斷過程中CT、X片等應用日益廣泛,據統計,我國醫學影像數據的年增長率約為30%,而放射科醫師數量的年增長率為4.1%。很多醫療機構與研究單位合作,基于醫院歷史的影像資料,利用機器學習等方法建立識別模型,自動讀片進行疾病的檢測,在皮膚癌、直腸癌、肺癌識別、糖尿病視網膜病變、前列腺癌、骨齡檢測等方面達到甚至超過人工檢測的準確率,這些疾病的檢測模型需要幾萬至幾十萬正確標注后的影像資料進行訓練才能達到目前的精度。相比較人工讀片,機器讀片比較容易繼承經驗知識,客觀、快速地進行定性和定量分析,為醫生診斷提供高效的輔助工具。

利用數據并不是政府、機構、企業的專利,每個人都能在自己的身邊享受數據帶來的紅利。

【例1-4】 做優秀的面包店長。

花小仙經營了一家面包房,經過幾年的經營,希望自己的店能進一步成長。開業以來,花小仙細心記錄了店內主要產品的相關數據,包括各種面包的銷量、質量、原料數量、價格等。建立簡單的回歸和時序模型分析這些數據后,花小仙預測了未來半年的收益、現金流,以及加大生產所需的機器和人力成本,最終決定通過添置機器、不增加人力的方式來提高產量,整個成本控制在未來現金流內,不會導致面包店資金鏈出現風險。

【例1-5】 物理實驗數據分析。

小夏是大學生,大學物理實驗課每次需要處理很多實驗數據,撰寫實驗分析報告。小夏嘗試數據科學方法來應對重復的數據處理過程。每次實驗預習時,按照物理模式做出表格,編寫分析小程序實現數據預處理、異常數據檢測、數據相關性分析、曲線擬合和誤差分析。實驗過程中小夏只需記錄數據,立刻就能得到分析結果,同時還能發現自己實驗過程中的不合理數據,校正實驗方法和步驟。小夏發現,他的小程序適應性很強,每次實驗只需要根據實驗原理,調整實驗數據記錄表格、物理原理公式計算函數就能滿足大多數實驗的分析要求。數據科學的工作方法提高了小夏物理實驗的效率,當然也包括物理實驗的成績。

數據不僅是一種工具,而且是一種戰略、世界觀和文化,它將帶來一場社會變革,每個人都應當以開放的心態、協同的精神來迎接這場變革。正如從礦物質里發現了鋼鐵、汽油改變了人類的生活一樣,數據也像一個礦,如何從中提煉出來提高生命質量的產品,現在才剛剛開始。“與數據的邏輯吻合,你自然會找到金子”。下面我們就開啟金子的發現之旅。

1.1.2 數據科學的知識結構

數據是世界本真的原始記錄,表示為零散的符號,如人的年齡、室外的溫度、公園的路線圖、臘梅花的圖片、一段聲音。數據本身并沒有意義,經過組織和處理后,數據被抽象為信息,用來表示某件事物和某種場景,如冬天的公園;將數據和信息經過理解轉化為一組規則來輔助決策,得到的就是知識,如基于公園的信息,給出在冬天公園的最佳觀賞路線圖。

數據科學(Data Science)研究的就是從數據形成知識的過程,通過假定設想、分析建模等處理分析方法,從數據中發現可使用的知識、改進關鍵決策過程。數據科學的最終產物是數據產品,是由數據產生的可交付物或由數據驅動的產物,表現為一種發現、預測、服務、推薦、決策、工具或系統。

數據科學雖然是新興學科,但并不是一夜之間出現的,數據科學的研究者和從業人員繼承了各個領域前輩們數十年甚至數百年的工作成果,包括統計學、計算機科學、數學、工程學及其他學科。數據科學已成為各行業發展的背后動力,迅速滲透到社會各個行業并通過高等教育傳播開來。數據密集型、計算驅動的工作成為未來的熱點。

今天數據科學的知識范疇主要包括專業領域、數學、計算機,可用韋恩圖來表示,如圖1-1所示。數據分析知識結構的韋恩圖有眾多的版本,這里給出的雪莉·帕爾默的說法。

圖1-1 數據科學的韋恩圖

1.領域專長

從事數據工作的人員需要了解數據來源的業務領域,充分應用領域知識提出正確的問題。每個人都想知道如何提高銷量,這確實是問題,但領域專家能問出更具體的問題,以引導實現可量化、可實現的提高。例如,使用數據集ABC是否可提高XY部門的產量?是否可以通過零售數據、天氣模式數據及停車場密度數據來提高資產回報率?可以使用產品的哪些特性來增強其競爭力?這些細節問題將幫助數據分析找到行動的方向。

2.數學

在數據科學中,數學家是團隊中解決問題的人,他們能夠建立概率統計模型、進行信號處理、模式識別、預測性分析。數據科學具有魔力,能在大數據集上使用精妙的數學方法,產生不可預期的洞察力。科學家研發出人工智能、模式匹配和機器學習等方法來建立這些預測模型。

3.計算機科學

數據科學是由計算機系統來實現的,數據科學項目需要建立正確的系統架構,包括存儲、計算和網絡環境,針對具體需求設計相應的技術路線,選用合適的開發平臺和工具,最終實現分析目標。

1.1.3 數據科學的工作流程

數據科學是系統科學,包括研究數據理論、數據處理及數據管理等。通常我們用術語“數據分析”表示數據科學的核心工作,即面向具體應用需求,進行原始數據收集、信息準備、模式分析并形成知識、創造價值的活動。

數據分析的關鍵步驟包括提出分析目標,從自然界中獲得一個數據集,對該數據集進行探索發現整體特性,使用統計、機器學習或數據挖掘技術進行數據實驗,發現數據規律,將數據可視化、構建數據產品,可以用圖1-2所示的流程表示。

圖1-2 數據分析的關鍵步驟

1.問題描述

數據科學不是因為有了數據,就針對數據進行分析,而是有需要解決的問題,才對應地搜集數據、分析數據。基于專業背景,界定問題,明確數據分析的目標和需求是數據分析項目成敗的關鍵所在。從數據理論的角度,可將分析問題的種類分為推理性問題、描述性問題、探索性問題、預測性問題、因果問題,相關性問題等。

2.數據準備

數據準備包括數據獲取、清洗、標準化,最終轉化為可供分析的數據。面向問題需求,我們可以從多種渠道采集到相關數據,如互聯網爬取、業務系統生成、檢測設備記錄等,然后按照業務邏輯將這些形式各異的數據組織為格式化的數據,去掉其中的冗余數據、無效數據,填補缺失數據。

3.數據探索

數據探索主要采用統計或圖形化的形式來考察數據,觀察數據的統計特性,數據成員之間的關聯、模式等。可視化的方法能夠提供數據概覽,從而找到有意義的模式。數據探索過程中也會發現數據并不干凈,含有重復值、缺失值或異常值,這就需要返回重新進行清洗。

4.預測建模

根據分析目標,通過機器學習或統計方法,從數據中建立問題描述模型。選擇何種方法主要取決于是分類預測問題,還是描述性問題,或是關聯性分析問題。建立模型應嘗試多種算法,每種算法都有相對適用的數據集,需要根據數據探索階段獲得的數據集特性來選擇。因此,這個階段另一個重要任務就是對生成的模型進行評估,嘗試多種算法及各種參數設置,從而獲得特定問題的相對最優解答。

5.結果可視化

結果可視化整理分析結果,展示并將分析結果保存在應用系統中。展示的形式有多種,如報表、二維圖、儀盤或信息圖等。這些結果被粘貼到各種報告中,或者發布到Web應用系統、移動應用的頁面上,形成數據產品。

一個成功的數據應用案例的核心因素不僅是分析技術方法,還在于對分析數據對象業務領域的理解,這幾乎決定了案例的成敗。數據科學的工作流程的每個環節都需要發揮領域知識的作用,指導分析過程走向正確的方向。

1.1.4 數據科學與大數據

近年來,大數據(Big Data)被廣泛提及,人們用它來描述和定義“信息爆炸”時代產生的海量數據,通常用“4V”來反映大數據的特征。

● Volume(規模性),數據的存儲與計算需要耗費海量規模的資源,如衛星收集的數據達到32PB、新浪微博日活躍人數達到1.65億人。

● Velocity(高速性),增長速度快,需要及時處理。支付寶“雙11”夜,0點支付峰值達到25.6萬筆/秒,上海地鐵日均刷卡記錄達到2千萬次。

● Variety(多樣性),數據的來源和形式多樣,包括半結構化的關系數據、位置、非結構化的文本、圖片、音/視頻數據。信息來源大致可分為網絡數據、企事業單位數據、政府數據、媒體數據等。

● Value(高價值性),大數據價值總量大,但知識密度低,需要通過數據分析有效地發現其價值。

大數據屬于數據科學的范疇,大數據分析是大數據創造價值的重要途徑。大數據分析遵循數據科學的工作流程,繼承了數據分析的技術和方法,只是當數據量達到某種規模時,需要引入分布式、并行計算、云平臺等其他技術實現大規模數據的存儲、計算和傳輸,如圖1-3所示。

圖1-3 大數據分析技術

1)從底層來看,大數據需要高性能的計算架構和存儲系統,如用于分布式計算的MapReduce計算框架、Spark計算框架,用于大規模數據協同工作的分布式文件存儲HDFS等。

2)大數據分析的基礎是對大數據進行有效管理,為大數據高效分析提供基本的數據操作,傳統的關系型數據庫難以滿足要求。新型數據庫,如適應處理高訪問負載的鍵值數據庫、分布式大數據管理的列式存儲數據庫、適用于非結構化的文檔數據庫及社交網絡和知識管理的圖形數據庫等,這些被統稱為NoSql數據庫。

3)傳統的統計方法、機器學習方法和可視化技術在應用于大數據分析時,需要根據數據量大、數據維度高、數據缺乏結構等特性,發展出相應的數據整合、清洗、降維處理等技術,同時發展新的分析方法和技術。深度學習(深度神經網絡)就是在大數據推動下演化出的有效方法,現在已廣泛應用于各類數據分析領域,包括圖像識別、語音處理、推薦系統等。

大數據的興起及各領域對大數據的關注,推動了數據科學的發展,但數據科學并不局限于大數據,并不是只有大數據才具有分析價值,近百年來人們通過數值分析、統計分析等各種方法洞察世界、探索未知、促進社會進步。而今天大數據的挖掘分析,為我們提供了更強大的技術手段。

本書依據數據科學的工作流程,關注從數據中發掘知識的思維邏輯、技術方法,通過實例介紹數據探索與可視化的技術、基于機器學習的數據建模預測方法,以及數據科學在圖像、序列數據、語音及自然語言等領域的應用。處理大數據額外需要的計算架構、數據存儲與管理等方面的技術,本書不涉及。在大數據建模分析技術中,本書將介紹目前最重要的深度學習方法,以及在圖像識別等前沿領域的應用。

思考與練習

1.結合自己的專業方向,使用互聯網收集1~2個數據科學的應用案例。

2.收集自己的月收支和消費數據清單,分析哪些非必要開支影響了經濟狀況。

主站蜘蛛池模板: 哈巴河县| 建阳市| 屏东市| 长春市| 瑞金市| 台江县| 麻栗坡县| 永泰县| 招远市| 墨竹工卡县| 印江| 和林格尔县| 龙海市| 兴安盟| 赣州市| 荃湾区| 靖江市| 平山县| 深圳市| 蕉岭县| 安新县| 来宾市| 张家口市| 正安县| 灵石县| 楚雄市| 紫云| 塘沽区| 通州市| 菏泽市| 澄迈县| 景谷| 昌黎县| 洪泽县| 永定县| 新乡市| 云安县| 黔西县| 句容市| 平遥县| 恩平市|