官术网_书友最值得收藏!

1.1 初識數(shù)據(jù)分析

如今,互聯(lián)網(wǎng)科技企業(yè)越來越多,人們在生產(chǎn)和生活中也在不斷產(chǎn)生新的數(shù)據(jù)。為了處理這些新產(chǎn)生的數(shù)據(jù),數(shù)據(jù)分析就顯得格外重要,于是,很多企業(yè)設置了“數(shù)據(jù)分析師”這一新崗位。數(shù)據(jù)分析師的主要職責就是對互聯(lián)網(wǎng)中累積的數(shù)據(jù)進行清洗處理,并以可視化技術等手段進行分析,為企業(yè)構建用戶畫像以生產(chǎn)對應商品。本節(jié)將對數(shù)據(jù)分析的基本概念做詳細介紹。

1.1.1 為什么會有數(shù)據(jù)分析

用戶使用互聯(lián)網(wǎng)瀏覽信息會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)可能來自不同的領域,而數(shù)據(jù)分析的目的就是把隱藏在一大批看起來雜亂無章的數(shù)據(jù)中最有價值的部分提煉出來,從而找出需要研究的對象的規(guī)律,得出有價值的信息。例如,用戶在日常生活中會用到某些購物平臺,這些購物平臺往往會設計一種模塊——猜你喜歡,平臺利用這一模塊向用戶推送其可能感興趣的商品(購物平臺通過分析用戶搜索某類商品的頻次來判斷其是否對這類商品有意愿購買),從而間接提高商品的瀏覽量和購買率。

1.1.2 怎樣去做數(shù)據(jù)分析

數(shù)據(jù)分析師的基本職業(yè)素養(yǎng)便是對數(shù)據(jù)敏感。數(shù)據(jù)分析師應該可以利用計算機對數(shù)據(jù)進行最基本的數(shù)據(jù)預處理,還應該具備基礎的統(tǒng)計學知識。一名優(yōu)秀的數(shù)據(jù)分析師會有自己獨到的見解,會結合當今社會的時代發(fā)展背景去分析數(shù)據(jù),如果脫離了現(xiàn)實認知,那么分析的結果就沒有太大的價值。同時,數(shù)據(jù)分析中的數(shù)據(jù)源是所研究問題的周邊化的數(shù)據(jù),需要數(shù)據(jù)分析師利用自身具備的數(shù)學知識進行數(shù)據(jù)的概率化操作,因此,數(shù)學知識也是一名數(shù)據(jù)分析師應該具備的基礎知識。除此之外,數(shù)據(jù)分析師還應具備對應行業(yè)的專業(yè)知識。

數(shù)據(jù)分析的基本流程包括確定分析目標及思路、數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)分析與建模、數(shù)據(jù)可視化及結果驗證、數(shù)據(jù)應用,如圖1.1所示。

圖1.1 數(shù)據(jù)分析的基本流程

分析目標及思路,也可以叫作需求分析,這是數(shù)據(jù)分析的第一步,也是最重要的一步,是一個分析問題、拆分問題的過程。通過分析要研究的目標得出分析思路,確定需要對哪些方面進行具體的分析,有助于明確整個數(shù)據(jù)分析過程中的每一步。

數(shù)據(jù)獲取是數(shù)據(jù)分析師在數(shù)據(jù)分析過程中與數(shù)據(jù)的第一次“見面”。在確立了分析需求之后需要用一些技術手段獲取數(shù)據(jù),包括但不限于下載數(shù)據(jù)集、爬取數(shù)據(jù)。通常數(shù)據(jù)分析師需要具備利用網(wǎng)絡爬蟲爬取數(shù)據(jù)的能力,可以利用爬蟲技術進行數(shù)據(jù)的實時抓取,確保數(shù)據(jù)的有效性。而對于實時性要求不高的數(shù)據(jù),則可以從企業(yè)數(shù)據(jù)庫或者相關網(wǎng)站導入不同類型的數(shù)據(jù)集來進行數(shù)據(jù)分析與可視化。

數(shù)據(jù)預處理是數(shù)據(jù)分析過程中的關鍵步驟,數(shù)據(jù)預處理的成功與否直接影響數(shù)據(jù)分析與建模的準確性和一致性。數(shù)據(jù)預處理大致分為4個基本步驟,分別是數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)清洗和數(shù)據(jù)標準化。數(shù)據(jù)合并是對數(shù)據(jù)進行簡單的歸類,為數(shù)據(jù)分析創(chuàng)建好數(shù)據(jù)分類集;數(shù)據(jù)變換可以將數(shù)據(jù)加工成建模時需要的形式,為數(shù)據(jù)建模做準備;數(shù)據(jù)清洗可以將數(shù)據(jù)中的缺失值、異常值和重復值等處理掉,最大程度地提高數(shù)據(jù)分析結果的準確度;數(shù)據(jù)標準化是對數(shù)據(jù)進行規(guī)范化操作,使數(shù)據(jù)分析更加高效。

數(shù)據(jù)分析與建模是數(shù)據(jù)分析的核心。通過建模可以得出數(shù)據(jù)中存在的特定規(guī)律,而模型就是這種規(guī)律的抽象化實例。數(shù)據(jù)分析就是通過一系列規(guī)范化的方法將數(shù)據(jù)中的有用信息提取出來,最終進行相應的數(shù)據(jù)處理。

如今的企業(yè)越來越習慣于數(shù)據(jù)分析帶來的直觀且高效的收益,此時可視化就是呈現(xiàn)數(shù)據(jù)分析結果的重要步驟。將數(shù)據(jù)分析結果以圖表的形式展現(xiàn)出來,會更加清晰、直觀。但是,這些圖表只是目標數(shù)據(jù)主觀分析結果的體現(xiàn),因此,驗證這一結果就顯得尤為重要。

數(shù)據(jù)應用則是將數(shù)據(jù)分析結果運用到相應的領域中,幫助企業(yè)設計出合適的方案或生產(chǎn)出符合需求的產(chǎn)品。

主站蜘蛛池模板: 天津市| 嘉善县| 五常市| 玛曲县| SHOW| 肇源县| 昌图县| 丹东市| 建瓯市| 海城市| 和龙市| 沂水县| 宁乡县| 天台县| 梁山县| 鄂伦春自治旗| 平远县| 永登县| 建水县| 宁阳县| 班玛县| 杂多县| 资兴市| 交口县| 武胜县| 逊克县| 海晏县| 萨迦县| 屏山县| 固阳县| 凤凰县| 富宁县| 松桃| 石屏县| 图木舒克市| 孟州市| 伽师县| 建宁县| 德保县| 凤庆县| 金阳县|