官术网_书友最值得收藏!

1.2 數(shù)據(jù)科學

隨著海量數(shù)據(jù)的不斷產生,大數(shù)據(jù)給社會帶來了新的挑戰(zhàn)和機遇,隨之出現(xiàn)了由新的理論、方法、模型、技術、平臺、工具和應用組成的一整套知識體系。數(shù)據(jù)科學作為一門新興的處于數(shù)理、統(tǒng)計及計算機編程之間的新型學科,可以幫助企業(yè)發(fā)現(xiàn)更多的商業(yè)機會,在商業(yè)洞察方面發(fā)揮著越來越重要的作用。

數(shù)據(jù)科學與大數(shù)據(jù)是相互關聯(lián)又有區(qū)別的。本節(jié)重點介紹數(shù)據(jù)科學的出現(xiàn)及定義、大數(shù)據(jù)分析的基本原理,以及概述數(shù)據(jù)科學在不同行業(yè)中的應用。

1.2.1 大數(shù)據(jù)分析原理

大數(shù)據(jù)分析的原理是:輸入一些樣本數(shù)據(jù)特征(即特征變量),在眾多的算法中找到一個適合該系列數(shù)據(jù)模式的算法。根據(jù)已經找到的算法,輸入想要預測的樣本數(shù)據(jù)的特征,此時算法就可以預測輸出相應的結果(即目標變量),詳細流程如圖1-2所示。

圖1-2 大數(shù)據(jù)分析原理

這里涉及幾個新概念:

· 特征變量:就是輸入特征,即輸入想讓模型進行學習的內容。

· 目標變量:也叫目標特征(或者輸出特征)。特征變量進行訓練,訓練出模型后,再放入更多新的特征變量,模型經過計算并輸出的值稱為目標特征。模型輸入輸出原理如圖1-3所示。

圖1-3 模型輸入輸出原理

我們舉一個例子來說明。電商平臺要通過以往的銷售額預測未來的銷售額,其輸入特征可能是:日訪問量、訪問頻次、每天銷售額的增長。目標特征是:未來幾個月的銷售額。通過訓練模型,找到一個可以泛化擬合的函數(shù),在函數(shù)中輸入這些特征,就可以得出準確的目標特征(更多的原理、技術細節(jié)已經超出本書范圍,這里就不展開講解了)。

1.2.2 數(shù)據(jù)在不同行業(yè)中的應用

數(shù)據(jù)科學作為一門跨統(tǒng)計學、運籌學、計算機科學、商業(yè)管理等學科領域的學科,在各個行業(yè)中都有廣泛的應用。下面羅列了數(shù)據(jù)科學在一些行業(yè)中的應用。

1.醫(yī)療領域

在醫(yī)療行業(yè)中沉淀了大量的紙質或電子版的個人病例數(shù)據(jù)、診斷數(shù)據(jù)、檢查結果數(shù)據(jù)、體檢數(shù)據(jù)等。將這些數(shù)據(jù)更好地整合、清洗及處理,提升醫(yī)療行業(yè)的信息化水平,幫助醫(yī)生做輔助診斷,成為當前醫(yī)療領域中的一個創(chuàng)新機會。

在傳統(tǒng)的醫(yī)生診斷治療中,醫(yī)生根據(jù)自己的臨床經驗診斷并提供治療方案。未來,醫(yī)生是否可以利用通過傳統(tǒng)醫(yī)療方法所積累的行業(yè)經驗及數(shù)據(jù),使用高級分析方法,對一些疾病進行早期的健康預測、預防?

全球知名的Kaggle網站(一個數(shù)據(jù)科學競賽網站,網站上有很多企業(yè)提出業(yè)務痛點,并提供一定的樣本數(shù)據(jù)。這里也有大量的國內外數(shù)據(jù)科學家,他們會根據(jù)企業(yè)提供的樣本數(shù)據(jù)進行建模,并為企業(yè)提供自己優(yōu)化的模型方案,以此獲得獎勵)曾有一道題:制訂健康改進計劃。該計劃鼓勵參賽者提出改善醫(yī)療保健的方法,可以贏得300萬美元。該題的題目是:預測人們第二年是否要去看?。ㄍㄟ^分析某些藥品和某些人特質之間關系,以便更好地提升醫(yī)療水平)。類似于這樣的一些商業(yè)場景,都預示著數(shù)據(jù)分析在醫(yī)療健康領域存在著大量的應用機會。

2.保險領域

保險科技近幾年發(fā)展迅猛。某些保險公司結合企業(yè)內部及外部數(shù)據(jù),嘗試做一些保險用戶畫像、保險科技場景的創(chuàng)新應用,用于理賠、反欺詐等業(yè)務場景中。另外,針對新出現(xiàn)的用戶保險共享平臺,衍生出了新的互助創(chuàng)新險種、養(yǎng)老健康險種等。

利用人工智能、數(shù)據(jù)分析等相關技術,保險科技企業(yè)對B端及C端做了以下一些技術應用方向的規(guī)劃,整體目標是提升保險領域中間環(huán)節(jié)的效率。

基于大數(shù)據(jù)應用,機器學習的保險行業(yè)針對B端及C端的方向如下:

(1)針對企業(yè)端(B端)的方向

場景欺詐檢測,數(shù)據(jù)反哺,自動化理賠,損失預測,理賠管理,險種創(chuàng)新。

(2)針對用戶端(C端)的方向

策劃新險種,優(yōu)化用戶體驗,為C端用戶進行保險規(guī)劃。另外,有一些新類型報銷,如共享保險,也是互聯(lián)網科技公司可以嘗試的比較好的方向。

3.農業(yè)領域

在農業(yè)領域中,可以通過傳感器采集大棚室溫、土壤及周邊環(huán)境的數(shù)據(jù),實時提醒用戶施肥和灌溉。還有一些企業(yè)會嘗試利用各類整合的數(shù)據(jù),將企業(yè)的整個生產過程進行數(shù)據(jù)分析,使其可視化。

4.用戶研究領域

在電商企業(yè)及傳統(tǒng)企業(yè)的用戶研究中,數(shù)據(jù)科學也有比較廣泛的應用場景。在電商領域中,用戶登錄電商平臺之后,經常會看見帶有“猜你喜歡”“給你推薦”“你可能平時購買或者瀏覽過”字樣的推薦產品。在約會類網站中,經常出現(xiàn)這樣的情況:根據(jù)用戶設置的條件,幫助用戶篩選出哪些異性可能會更適合你。

在更多用戶和市場研究領域中,會有更高級的數(shù)據(jù)分析應用,如用戶畫像的研究、用戶的分群研究、市場細分研究、用戶未來生命價值貢獻預測等。

數(shù)據(jù)技術不斷滲透并進入更多企業(yè)的各個領域,在未來還會涉及金融、零售、快速消費品、汽車、航空等領域。對于企業(yè)而言,找到行業(yè)可能應用到數(shù)據(jù)的場景及方向是企業(yè)數(shù)據(jù)決策的第一步。

接下來我們會針對這些場景介紹數(shù)據(jù)分析流程、高級分析的原理及數(shù)據(jù)科學家所具備的能力,從而幫助讀者理解場景、數(shù)據(jù)分析流程及核心技術能力,讓更多數(shù)據(jù)應用場景能夠在企業(yè)落地。

主站蜘蛛池模板: 达孜县| 尼玛县| 石林| 汉沽区| 阜城县| 临江市| 本溪| 平乡县| 托里县| 固原市| 德保县| 柳州市| 卫辉市| 南通市| 达孜县| 微山县| 巴林右旗| 固安县| 玉龙| 西平县| 辽中县| 开远市| 中牟县| 青河县| 大洼县| 永定县| 自治县| 深泽县| 德兴市| 綦江县| 搜索| 溧水县| 临桂县| 阿图什市| 朝阳市| 微博| 莫力| 合作市| 汽车| 游戏| 巴南区|