- Python數(shù)據(jù)分析與可視化(微課版)
- 李俊吉 宋祥波主編
- 1472字
- 2024-06-20 18:21:54
1.1 初識數(shù)據(jù)分析
如今,互聯(lián)網(wǎng)科技企業(yè)越來越多,人們在生產(chǎn)和生活中也在不斷產(chǎn)生新的數(shù)據(jù)。為了處理這些新產(chǎn)生的數(shù)據(jù),數(shù)據(jù)分析就顯得格外重要,于是,很多企業(yè)設置了“數(shù)據(jù)分析師”這一新崗位。數(shù)據(jù)分析師的主要職責就是對互聯(lián)網(wǎng)中累積的數(shù)據(jù)進行清洗處理,并以可視化技術等手段進行分析,為企業(yè)構建用戶畫像以生產(chǎn)對應商品。本節(jié)將對數(shù)據(jù)分析的基本概念做詳細介紹。
1.1.1 為什么會有數(shù)據(jù)分析
用戶使用互聯(lián)網(wǎng)瀏覽信息會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)可能來自不同的領域,而數(shù)據(jù)分析的目的就是把隱藏在一大批看起來雜亂無章的數(shù)據(jù)中最有價值的部分提煉出來,從而找出需要研究的對象的規(guī)律,得出有價值的信息。例如,用戶在日常生活中會用到某些購物平臺,這些購物平臺往往會設計一種模塊——猜你喜歡,平臺利用這一模塊向用戶推送其可能感興趣的商品(購物平臺通過分析用戶搜索某類商品的頻次來判斷其是否對這類商品有意愿購買),從而間接提高商品的瀏覽量和購買率。
1.1.2 怎樣去做數(shù)據(jù)分析
數(shù)據(jù)分析師的基本職業(yè)素養(yǎng)便是對數(shù)據(jù)敏感。數(shù)據(jù)分析師應該可以利用計算機對數(shù)據(jù)進行最基本的數(shù)據(jù)預處理,還應該具備基礎的統(tǒng)計學知識。一名優(yōu)秀的數(shù)據(jù)分析師會有自己獨到的見解,會結合當今社會的時代發(fā)展背景去分析數(shù)據(jù),如果脫離了現(xiàn)實認知,那么分析的結果就沒有太大的價值。同時,數(shù)據(jù)分析中的數(shù)據(jù)源是所研究問題的周邊化的數(shù)據(jù),需要數(shù)據(jù)分析師利用自身具備的數(shù)學知識進行數(shù)據(jù)的概率化操作,因此,數(shù)學知識也是一名數(shù)據(jù)分析師應該具備的基礎知識。除此之外,數(shù)據(jù)分析師還應具備對應行業(yè)的專業(yè)知識。
數(shù)據(jù)分析的基本流程包括確定分析目標及思路、數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)分析與建模、數(shù)據(jù)可視化及結果驗證、數(shù)據(jù)應用,如圖1.1所示。

圖1.1 數(shù)據(jù)分析的基本流程
分析目標及思路,也可以叫作需求分析,這是數(shù)據(jù)分析的第一步,也是最重要的一步,是一個分析問題、拆分問題的過程。通過分析要研究的目標得出分析思路,確定需要對哪些方面進行具體的分析,有助于明確整個數(shù)據(jù)分析過程中的每一步。
數(shù)據(jù)獲取是數(shù)據(jù)分析師在數(shù)據(jù)分析過程中與數(shù)據(jù)的第一次“見面”。在確立了分析需求之后需要用一些技術手段獲取數(shù)據(jù),包括但不限于下載數(shù)據(jù)集、爬取數(shù)據(jù)。通常數(shù)據(jù)分析師需要具備利用網(wǎng)絡爬蟲爬取數(shù)據(jù)的能力,可以利用爬蟲技術進行數(shù)據(jù)的實時抓取,確保數(shù)據(jù)的有效性。而對于實時性要求不高的數(shù)據(jù),則可以從企業(yè)數(shù)據(jù)庫或者相關網(wǎng)站導入不同類型的數(shù)據(jù)集來進行數(shù)據(jù)分析與可視化。
數(shù)據(jù)預處理是數(shù)據(jù)分析過程中的關鍵步驟,數(shù)據(jù)預處理的成功與否直接影響數(shù)據(jù)分析與建模的準確性和一致性。數(shù)據(jù)預處理大致分為4個基本步驟,分別是數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)清洗和數(shù)據(jù)標準化。數(shù)據(jù)合并是對數(shù)據(jù)進行簡單的歸類,為數(shù)據(jù)分析創(chuàng)建好數(shù)據(jù)分類集;數(shù)據(jù)變換可以將數(shù)據(jù)加工成建模時需要的形式,為數(shù)據(jù)建模做準備;數(shù)據(jù)清洗可以將數(shù)據(jù)中的缺失值、異常值和重復值等處理掉,最大程度地提高數(shù)據(jù)分析結果的準確度;數(shù)據(jù)標準化是對數(shù)據(jù)進行規(guī)范化操作,使數(shù)據(jù)分析更加高效。
數(shù)據(jù)分析與建模是數(shù)據(jù)分析的核心。通過建模可以得出數(shù)據(jù)中存在的特定規(guī)律,而模型就是這種規(guī)律的抽象化實例。數(shù)據(jù)分析就是通過一系列規(guī)范化的方法將數(shù)據(jù)中的有用信息提取出來,最終進行相應的數(shù)據(jù)處理。
如今的企業(yè)越來越習慣于數(shù)據(jù)分析帶來的直觀且高效的收益,此時可視化就是呈現(xiàn)數(shù)據(jù)分析結果的重要步驟。將數(shù)據(jù)分析結果以圖表的形式展現(xiàn)出來,會更加清晰、直觀。但是,這些圖表只是目標數(shù)據(jù)主觀分析結果的體現(xiàn),因此,驗證這一結果就顯得尤為重要。
數(shù)據(jù)應用則是將數(shù)據(jù)分析結果運用到相應的領域中,幫助企業(yè)設計出合適的方案或生產(chǎn)出符合需求的產(chǎn)品。
- Android項目實戰(zhàn):手機安全衛(wèi)士
- 中華優(yōu)秀傳統(tǒng)文化(慕課版·第2版)
- 模具開發(fā)實用技術
- 鞋靴設計學(第二版)
- 財務管理(第三版)
- 數(shù)控銑實訓教程
- 化工工藝虛擬仿真與安全分析
- 2020年云南省選聘大學生村官考試《行政職業(yè)能力測驗》題庫【真題精選+章節(jié)題庫+模擬試題】
- 數(shù)據(jù)庫技術與應用新概念教程學習指導(第二版)
- 對外經(jīng)濟貿(mào)易大學英語學院211翻譯碩士英語[專業(yè)碩士]歷年考研真題及詳解
- 時裝畫技法:主題表現(xiàn)
- 電子服務及實踐
- 國際服裝商務(第2版)
- 2020年甘肅公務員錄用考試專項教材:判斷推理【考點精講+典型題(含歷年真題)詳解】
- 無機非金屬材料工程案例分析