官术网_书友最值得收藏!

1.3 大數據的內涵

1.3.1 大數據的含義

大數據發展已久,社會各界也從不同角度給出了大數據的定義。《大數據與人工智能》認為,大數據是不能用常用工具來捕捉、管理和處理的一個數據集合,它是需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

麥肯錫咨詢公司從技術的角度給出了大數據的定義,即大數據是指規模超過現有數據庫工具獲取、存儲、管理和分析能力的數據集,并且不是數據大小超過特定數量級的數據集才是大數據。

美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)從大數據內涵的角度,將大數據定義為“具備海量性、高速性、多樣性、可變性等特征的多維數據集,需要通過可伸縮的體系結構實現高效的存儲、處理和分析”。

綜上所述,我們可以認為,所謂大數據,是指海量數據自身以及為了實現數據到價值的轉換過程所涉及的工具、平臺、系統的集合。

1.3.2 大數據的特征

在維克托·邁爾-舍恩伯格和肯尼思·庫克耶編寫的《大數據時代》一書中,大數據分析是指要對所有數據進行分析處理,而不是采用抽樣調查對小數據集進行分析的方式。相比于小數據的數據量小、數據類型單一的特點,大數據具有數據量大、多樣性、時效性、準確性和低價值密度的五維特點(見圖1-5)。

圖1-5 大數據的五維特點

①數據量大。大數據的特征首先體現在大數據存儲介質的容量“大”。在MP3風靡全國的時代,MB存儲級別的MP3可以滿足大多數人對歌曲存儲的要求。然而隨著信息技術的發展,社會產生的數據量開始井噴式增長。數據存儲單位已經從過去的MB和GB,發展到現在的PB、EB級別。社交平臺(微信、QQ、微博)、物聯網、電子商務等,都成為數據的重要來源。

②多樣性。廣泛的數據來源,決定了大數據形式的多樣性。用戶個性化推薦系統作為大數據應用之一,已經廣泛地應用在了京東、QQ音樂、小紅書等平臺,這些平臺通過對用戶的行為數據、日志數據等進行分析和挖掘,從而推薦給用戶其可能感興趣的產品和內容。這些數據既有類似于用戶日志的結構化數據,還有一些非結構化數據,如視頻、圖像等。

③時效性。生活中每個人都離不開互聯網,每個人每天都在互聯網上產生大量的數據。花費大量成本去存儲作用較小的歷史數據從商業角度來看是非常不劃算的。對于一個商業公司而言,保存的歷史數據可能只是過去幾天或者一個月之內的數據,對更早的數據就要及時清除。基于這種情況,大數據對處理速度有非常嚴格的要求,誰的速度更快,誰就在競爭中更有優勢。

④準確性。數據的準確性是指在數據的生命周期內,數據的一致性和完整性。保證數據的準確性意味著數據應以準確、真實、完整的方式來進行收集、記錄和存儲。然而,在大數據時代,數據的真假很難區分,這也是當前需要著重解決的大數據技術難題之一。如當前大型互聯網平臺采用的解決數據準確性問題的方法通常是技術和管理的結合。在技術上,首先通過使用更優數據預處理方法,去除大部分無用數據;然后在數據分析階段,通過設定一系列邏輯驗證規則,進一步保證數據的準確性。而在管理方面,則通過設定一個規范化的數據管理流程,如數據安全的保護等,來保證數據的真實性和準確性。

⑤低價值密度。大數據分析的價值在于從海量相關性較低的多種類型的數據中,挖掘出對模式預測與未來趨勢有價值的部分數據,然后借助人工智能技術,如深度學習等,發現新的知識,并將其運用于各個領域,從而達到改善社會治理、提高社會生產效率的目的。

1.3.3 大數據的處理流程

用戶訪問企業網站的同時,網站擁有了大量的訪客及其訪問內容的信息,但這并不代表企業能夠充分利用這些信息。為了更好地利用這些信息,企業需要對數據進行分析處理,發掘內部有價值的信息,從而對用戶群體進行細分,針對不同用戶群體制定個性化的營銷策略。目前大數據的處理流程主要分為數據預處理、數據統計與分析、數據挖掘三個部分。

1.數據預處理

數據預處理作為大數據分析的第一步,對數據挖掘的效果至關重要。進行數據預處理的根本原因在于原始數據中存在數據缺失、數據不一致、部分數據異常等現象,這些現象可能導致挖掘結果的偏差。進行數據預處理,一方面能提高數據的質量,另一方面能讓數據更好地適應特定的挖掘技術或工具,最終達到算法和知識獲取研究的最低要求和規范。數據預處理的流程包括數據清理、數據集成、數據規約和數據變換。

(1)數據清理

數據預處理的第一步是數據清理,主要包括處理缺失值及異常值檢測。

①處理缺失值。在數據預處理中,數據缺失是常見的問題,產生的原因也是多種多樣的,主要包括人為因素和機械故障。因此,對缺失值的處理是數據預處理中的重要一環。目前對缺失值的處理方式,一般包括以下幾類。

a.忽略缺失值:當數據中含有的屬性缺失值占總數據的比例較小時,可以采用忽略缺失值或者直接去除含有缺失值數據的方法。

b.人工填充缺失值:通過重新收集數據,或者根據相關知識來填充數據,此類方法存在費時的缺點。

c.常量填充:通常使用均值與眾數填充,或者采用概率分布,使數據分布看起來更真實。同時,也可以結合實際情況通過公式進行計算填充,比如某一天的門店客流計數缺失,可以參考過往的客流數據、轉化數據、缺失時段的銷售額,用一個簡單公式自動計算回補。

d.模型填充:以不含有缺失值的數據作為訓練集,通過建立預測缺失值模型,對含有缺失值的數據進行填充。常用的模型有XGBoost、AdaBoost等。

②異常值檢測。異常值檢測是指處理數據集中含有的離群點,離群點是指遠離大部分數據集中區域的數據。這部分數據可能由隨機因素產生,也可能由數據采集機制產生,如何處理取決于離群點的產生原因以及應用目的。若由隨機因素產生,應當忽略或者剔除離群點;若由數據采集機制產生,離群點就是有價值的數據,是對構建模型有用的數據。后者的一個典型應用為用戶異常行為檢測。例如,在不良信用卡用戶識別檢測中,對大量的用戶信用卡信息和消費行為進行量化建模和聚類后,聚類中遠離大量樣本的點是非常可疑的。第一,因為這類用戶和正常用戶的信用卡信息的特征相差較大;第二,因為他們的消費行為和正常用戶的消費行為也有很大的不同。同樣,購物網站檢測到惡意刷單等,都是用戶異常行為的表現,從而形成了離群點。常用的異常值檢測方法有聚類算法、支持向量機等。

(2)數據集成

數據集成是將來自不同數據源的數據整合,使之成為數據格式一致的數據。其主要用來處理數據集中的實體識別、數據冗余、元組重復以及數據值沖突等問題,有助于降低數據集的不一致性和冗余性,提高數據挖掘的準確性和挖掘速度。

①實體識別。實體識別是指將來自現實世界的多個信息源的等價實體進行匹配。例如,針對一個數據庫中的Customer_id和另一個數據庫中的Cust_number是否為相同屬性這一問題,可以通過查看數據屬性信息判斷并進行統一。

②數據冗余。如果一個屬性能由另一個或另一組屬性“推導”出來,則這個屬性可能是冗余的。同時,屬性命名不一致也會導致結果數據集中的冗余。有些冗余可以通過相關分析檢測:對于標稱型數據(一般在有限的數據中取值,而且只存在“是”和“否”兩種不同的結果),可以使用卡方檢驗進行檢測;對于數值型數據(可以從無限的數據中取值),則可以使用相關系數和協方差評估屬性間的相似性。

③元組重復。除了檢測屬性的冗余之外,還要檢測重復的元組。例如,給定唯一的數據實體,存在兩個或多個相同的元組,可以使用數據分析軟件Excel、Power BI等去除重復元組。

④數據值沖突。例如,不同學校的學生在進行信息交流時,不同學校有各自的課程計劃和評分方案,同一門課的成績所采取的評分方法也有可能不同,如十分制或百分制,這些都可能造成數據值的沖突。數據值的沖突可以通過采用規范數據標準來解決。

(3)數據規約

數據規約是為了使數據信息內容損失最小化,目前主要采用的方法包括:維規約、數量規約和數據壓縮。

①維規約,主要目的是減少所考慮的屬性和隨機變量的個數,使用的方法有小波變換、主成分分析、屬性子集選擇等。前兩種方法是將原始數據變換或投影到較小的空間,屬性子集選擇則主要是將數據中不相關、弱相關或冗余的屬性檢測出來并刪除。

②數量規約,即用較小的數據替換原始數據。數量規約采用的方法可以是參數方法或者非參數方法。參數方法可以通過回歸模型與對數線性模型來實現。例如,針對數值型的數據,可以用回歸方法對數據建模,使之擬合成直線或平面,達到數據規約的目的。非參數方法可以通過直方圖、聚類、抽樣來實現。例如,通過使用聚類算法將數據分簇,用每個數據簇中的代表來替換實際數據,這同樣可以達到數據規約的效果。

③數據壓縮,即通過變換得到原始數據的規約或“壓縮”表示。如果在壓縮后的數據重構中不存在信息損失,則該數據規約被稱為無損規約;如果是近似重構原數據,則稱為有損規約,基于小波變換的數據壓縮是一種非常重要的有損壓縮方法。

(4)數據變換

將數據變換成適合挖掘的形式,稱為數據變換。常使用的數據變換方法為光滑,主要用于去除數據中的噪聲。例如,在進行年齡統計時,如果出現小于0或者大于100的數據,可以將其變換為眾數。對于數據變換,我們還可以采用屬性構造、規范化等方法。

2.數據統計與分析

對于預處理后獲取的數據,我們需要進行簡單的統計分析。常用的統計分析方法有描述性統計分析、顯著性檢驗和相關分析等。

描述性統計分析主要是計算描述數據水平變化的統計量,主要包括平均數、分位數、極差、偏度系數等。平均數計算簡單,反映了一組數的平均水平,易受到極端值的影響。分位數包括四分位數、中位數、百分位數等。例如,中位數通常是指一組數據中,處于中間位置的數據,該值只與數據的所在位置有關,不受極端值影響。描述數據差異的統計量主要包括極差、偏度系數等。極差是指一組數據的最大值與最小值之差,易受極端值影響。偏度系數是描述一組數據分布對稱性的統計量,偏度系數越接近0,則數據的分布越對稱。偏度系數為正,則數據分布為右偏;偏度系數為負,則數據分布為左偏。

顯著性檢驗是事先對總體的參數或總體的數據分布形式做出一個假設,之后利用數據信息判斷真實情況與假設是否存在顯著的差異。

相關分析是對兩個或兩個以上變量進行分析,以此來衡量變量之間的相關程度。相關分析的前提是變量之間需要存在一定的聯系,可通過分析獲得相關系數。相關系數是用來衡量變量之間的統一程度的量,它的數值范圍是[-1,1]。其中,-1表示兩個變量完全負相關,0表示兩個變量不相關,1表示兩個變量完全正相關。相關系數越接近-1(1),負(正)相關的程度越高。相關分析常用的計算方式有皮爾遜相關系數、斯皮爾曼相關系數。

此外,協方差也可以衡量兩個變量的相關性。協方差可衡量兩個變量的總體誤差,如果兩個變量的變化趨勢相同,此時協方差大于0,變量之間正相關。如果兩個變量的變化趨勢相反,協方差小于0,變量之間負相關。協方差為0,說明兩個變量不相關。

3.數據挖掘

想要深入挖掘數據的價值,數據挖掘是十分有效的方法。數據挖掘通過使用各種挖掘模型,發現數據中存在的有用知識,常用的數據挖掘模型有聚類、分類、關聯分析等。

物以類聚,人以群分。聚類是在沒有訓練的條件下,對一些無標簽的數據進行歸納分類,根據數據內部的相似性對數據進行分組(見圖1-6)。無標簽是指樣本數據所屬類別標號的種類未知。聚類的時候,并不關心某一類是什么,只是將相似的數據聚為一類。常用的聚類算法有K-means、DBSCAN等。聚類常見的應用場景有信用卡用戶識別檢測、社群劃分等。

圖1-6 人群聚類

分類是一個有監督的學習過程,在已知部分數據所屬類別的情況下,通過對該部分數據進行建模,將類別未知的數據分類,盡可能地把每一個未知類別的數據歸到對應的類別之中(見圖1-7)。在進行分類時,必須事先知道各個類別的信息,并且所有待分類的數據條目都默認有對應的類別。常用的分類模型有邏輯回歸、SVM等。分類常用于垃圾郵件檢測、腫瘤檢測、產品分類等場景。

圖1-7 動物分類

關聯分析主要用于挖掘有意義的聯系,所發現的模式通常采用關聯規則或頻繁項集的形式表示。常用的關聯分析算法有Apriori算法、FP-growth算法等。關聯分析可以應用于網頁信息挖掘、科學數據分析、商品推薦等。

1.3.4 大數據的應用領域

大數據分析的任務是將挖掘效果較差的原始數據經過處理流程轉化成更能提升挖掘能力的數據。大數據和人工智能具有天然的聯系,大數據是人工智能發展的基石,人工智能讓大數據發展前景更加廣闊。大數據的發展過程中使用了許多人工智能的理論和方法,人工智能也因大數據技術的發展步入了新的發展階段,并使大數據應用到了更多的領域。

1.大數據在快時尚領域的應用

隨著快時尚行業的逐漸衰退,許多品牌已經開始退出中國市場,但是某快時尚品牌的市場份額并沒有出現下滑,而且每當新產品上市時,還可能出現新產品被搶購一空的情況。許多人認為,該快時尚品牌是為數不多的可以成功實現零庫存的快時尚品牌之一,而在其“零庫存”成就下,大數據精準營銷技術做出的貢獻是必不可少的。通過分析該快時尚品牌營銷策略可發現,大多數人都愿意選擇該快時尚品牌,主要是由于產品價格便宜、質量好、美觀,并且經常與其他品牌互動。實際上,通過進一步分析,不難看出該快時尚品牌具有以下突出特點。首先,價格合適,可以被普通消費者接受。其次,產品的款式主要為一些基本款式,能滿足大多數年齡段的大多數人的日常穿著需求,形成了較大的市場規模。再次,該快時尚品牌會根據產品的銷售情況適當調整輸出。最后,品牌聯合活動是階段性和周期性的。以上特點體現了該快時尚品牌的系統化、高容錯率和低錯誤率的業務模式,這都源于大數據的收集和準確分析的支持。該快時尚品牌在應用大數據方面非常熟練,多年來,其維護著大量數據,如每周銷售數據、樣式代碼市場狀況以及每家商店的銷量,并據此分析制定相應的產銷策略,以降低成本,提高容錯率,實現零庫存。具體來說,該快時尚品牌是怎么運用大數據技術進行數據挖掘,做到精準營銷,實現零庫存的呢?

對于該快時尚品牌這種既有線下實體店,又有線上銷售平臺的跨國企業來說,在企業的擴張過程中,積累了大量的用戶數據信息,對這些信息進行挖掘是實現零庫存的基礎。首先,通過多維度挖掘真實用戶消費信息,如用戶購買數據、瀏覽數據、地址數據和行為數據等,總結不同商品的用戶需求,構建不同商品的用戶畫像,再通過多類型用戶畫像的交集歸納出購買商品的典型人群。其次,分析典型人群特征,反推需求,對潛在用戶進行精準化推送。最后,通過測試多次推送的效果,驗證用戶的需求并迭代優化,根據收集到的信息進行用戶畫像的更新。構建用戶畫像,使該快時尚品牌的服務聚焦性和專注性更強,能提升用戶體驗,以及企業盈利能力。

2.大數據在交通領域的應用

隨著城市化的推進,交通擁堵問題成為長期困擾城市管理的煩惱之一。某城市采用了一種基于大數據的智能交通管理系統,在一定程度上解決了交通擁堵問題。該系統采集了各種交通數據,如道路狀況、車流量、交通事故和車輛GPS數據等,并對這些數據與天氣預報和公共活動日歷等其他數據源進行整合分析,預測道路擁堵情況,并智能調度交通信號燈和公交車,使道路上的車流更加順暢。此外,該系統還能夠智能推薦出行路線,提供實時交通信息。

該系統的運行效果顯著,短短幾個月內,該城市的交通擁堵問題就得到了顯著改善。市民的出行效率得到了大幅提高,同時也降低了能源消耗,保護了環境。該系統的成功應用證明了大數據技術在交通領域中的巨大潛力。大數據技術可以幫助政府更好地管理和利用城市交通資源,提高市民出行效率和體驗。

3.大數據在醫療領域的應用

大數據在醫療領域的應用越來越廣泛。例如,某醫院采用了一種基于大數據的智能醫療系統,以改善患者的治療和管理效果。該系統利用大數據算法分析了大量的患者數據,包括病歷、化驗結果、藥物治療效果等,可以根據患者的個性化信息,智能制訂治療方案,并對患者的治療效果進行實時監測和評估。此外,該系統還能夠為醫生提供實時的疾病診斷和治療建議,并為患者提供在線醫療咨詢和指導服務。借助該系統,該醫院患者的治療和管理效果得到了大幅改善,同時醫療成本也大幅降低,有效節約了資源。該系統的成功應用證明了大數據技術在醫療領域中的巨大潛力。大數據技術可以幫助醫院更好地管理和利用醫療資源,從而改善治療效果。

4.大數據在網絡安全領域的應用

大數據在網絡安全領域的應用十分廣泛。例如,某家互聯網安全企業采用了一種基于大數據的網絡安全系統,以預測和防范網絡攻擊。該系統利用大數據算法分析了大量的網絡數據,包括網絡流量、日志數據、網絡設備的活動和漏洞等,同時,根據這些數據預測可能的網絡攻擊,并智能識別和攔截網絡攻擊。此外,該系統還能夠為企業提供實時的安全警報和建議,以幫助企業及時處理和防范網絡安全威脅。該大數據系統的運行效果顯著,成功防范了多次網絡攻擊,保障了企業的信息安全和業務運行。這證明了大數據技術在網絡安全領域中的巨大潛力。大數據技術可以幫助企業更好地識別和應對網絡安全威脅,提高網絡安全防御的效率和準確性。

主站蜘蛛池模板: 高雄县| 大关县| 芦山县| 赤城县| 和硕县| 台东县| 河西区| 台南县| 琼海市| 北碚区| 胶州市| 河北省| 交口县| 陇南市| 澄迈县| 冷水江市| 安新县| 屯留县| 肥乡县| 尼玛县| 兴安县| 洛扎县| 梁山县| 湄潭县| 宝山区| 霍州市| 东乌| 昂仁县| 台安县| 高淳县| 黄石市| 双柏县| 双辽市| 龙江县| 宜黄县| 清河县| 永泰县| 尼玛县| 潞西市| 喀什市| 抚宁县|