官术网_书友最值得收藏!

2.1 項目背景概述

下面以一個BI項目為例,該項目立足于為企業(yè)建立一個商業(yè)智能數(shù)據(jù)管理的統(tǒng)一平臺,實現(xiàn)自助式數(shù)據(jù)處理、多維數(shù)據(jù)分析、可視化分析。下面介紹建立BI項目的意義與需求、項目目標(biāo)、系統(tǒng)設(shè)計與階段劃分。

2.1.1 項目意義與需求

在快速變化的市場環(huán)境中,企業(yè)能不能及時地通過數(shù)據(jù)分析驗證產(chǎn)品思想,常常決定產(chǎn)品占領(lǐng)市場的速度。通過數(shù)據(jù)分析,能揭示用戶對新上線產(chǎn)品功能的滿意程度,幫助企業(yè)快速定位用戶痛點,從而避免產(chǎn)生錯誤思維。但是,隨著企業(yè)業(yè)務(wù)的快速發(fā)展,企業(yè)早期采用的數(shù)據(jù)分析方法已不能滿足要求。

目前,隨著數(shù)據(jù)量的增加,企業(yè)面臨的數(shù)據(jù)需求越來越多,數(shù)據(jù)復(fù)雜度也越來越高,如圖2-1所示。

圖2-1 企業(yè)面臨的數(shù)據(jù)挑戰(zhàn)

1. 數(shù)據(jù)需求越來越多

隨著企業(yè)數(shù)據(jù)量不斷增加,數(shù)據(jù)需求也日益增加。龐大的數(shù)據(jù)量,導(dǎo)致腳本處理數(shù)據(jù)所需的計算資源不斷增加,當(dāng)單機性能達到極限時,數(shù)據(jù)分析的并行性就會降低,每一次執(zhí)行任務(wù)所需的時間會變長,一旦某個數(shù)據(jù)需求需要重新執(zhí)行,就會造成所有需求進度的延遲。

此外,隨著數(shù)據(jù)源的日益豐富,數(shù)據(jù)之間的關(guān)系越來越復(fù)雜,錯誤發(fā)生的頻率不斷提高,這給數(shù)據(jù)分析人員的工作帶來很大挑戰(zhàn),因為缺少統(tǒng)一的統(tǒng)計口徑,數(shù)據(jù)不一致性問題日益突出。

2. 數(shù)據(jù)復(fù)雜度越來越高

在企業(yè)業(yè)務(wù)不斷發(fā)展的今天,數(shù)據(jù)的復(fù)雜度越來越高,從數(shù)據(jù)需求的角度看,業(yè)務(wù)越發(fā)展,就越需要對決策提供數(shù)據(jù)支持,也要求數(shù)據(jù)需求分析的速度更快。

隨著數(shù)據(jù)量的增加,數(shù)據(jù)之間的關(guān)系變得更加復(fù)雜,現(xiàn)有數(shù)據(jù)分析模式的使用效率降低。要想為企業(yè)各個業(yè)務(wù)部門的發(fā)展提供決策依據(jù),幫助管理人員更好地了解業(yè)務(wù)現(xiàn)狀,改善數(shù)據(jù)分析狀況,我們提出一套全面的解決方案,以改變當(dāng)前企業(yè)數(shù)據(jù)使用效率較低的現(xiàn)狀。

這個項目基于Apache Superset的BI數(shù)據(jù)可視化研究,以一家著名電商品牌的線上銷售數(shù)據(jù)為例,從不同維度對其客戶數(shù)據(jù)、銷售數(shù)據(jù)、供應(yīng)商數(shù)據(jù)等進行抽取、過濾和轉(zhuǎn)換,最終以合適的方式呈現(xiàn)結(jié)果。該項目需要優(yōu)化的方向如圖2-2所示。

圖2-2 需要優(yōu)化的方向

(1)降低代碼數(shù)量:對于數(shù)據(jù)分析員來說,代碼數(shù)量過多也容易產(chǎn)生較大的工作量,應(yīng)避免通過編寫代碼來完成簡單的數(shù)據(jù)統(tǒng)計。

(2)縮短運行時間:由于數(shù)據(jù)量很大,簡單的計算、統(tǒng)計任務(wù)往往要花上一天或幾天時間來完成,應(yīng)縮短數(shù)據(jù)分析運行時間。

(3)優(yōu)化數(shù)據(jù)復(fù)雜度:數(shù)據(jù)來自多種數(shù)據(jù)源,如金融、運營、渠道和若干App產(chǎn)品的商業(yè)數(shù)據(jù)庫,并且企業(yè)大都采取敏捷開發(fā),業(yè)務(wù)變化非常迅速,數(shù)據(jù)結(jié)構(gòu)也不穩(wěn)定。

(4)統(tǒng)一指標(biāo)與算法:針對同一指標(biāo),若不同開發(fā)者所使用的數(shù)據(jù)來源、算法不一致,就會造成外展數(shù)據(jù)顯示存在相互矛盾的情況,導(dǎo)致業(yè)務(wù)方對數(shù)據(jù)分析結(jié)論不信任。

(5)提升工作效率:幾乎90%的需求是由業(yè)務(wù)方臨時提出的,一方面大大提高了數(shù)據(jù)分析的實時性要求,增加了數(shù)據(jù)分析的工作量,另一方面,業(yè)務(wù)方又難以根據(jù)分散的需求獲取數(shù)據(jù)所提供的價值。

我們知道,可視化技術(shù)的核心功能是使用戶在最短時間內(nèi)獲得數(shù)據(jù)的總體信息和大多數(shù)細節(jié),而這種方法顯然不能直接觀測到數(shù)據(jù)。如果設(shè)計師可以預(yù)估到使用者的行為和期望,并以此作為視覺設(shè)計依據(jù),就能幫助使用者了解視覺效果。BI可視化開發(fā)需要遵循以下8個方面的原則。

1. 美學(xué)標(biāo)準(zhǔn)原則

視覺是獲取信息最重要的渠道,人腦對美的感知沒有統(tǒng)一的標(biāo)準(zhǔn),但有一定的規(guī)律可循,美學(xué)標(biāo)準(zhǔn)原則有穩(wěn)定的構(gòu)圖、合理的信息布局、適宜的色彩情感等。

2. 效果精致原則

傳統(tǒng)的數(shù)據(jù)可視化以各種圖表組件為主,而優(yōu)秀的數(shù)據(jù)可視化設(shè)計需要具有絢麗的視覺效果,且通常需要具備以下特征:顏色搭配合適、信息承載豐富、動畫效果逼真等。

3. 視圖恰當(dāng)原則

通過對數(shù)據(jù)進行分析、挖掘,提取出隱含在數(shù)據(jù)中的信息,然后根據(jù)敘述的需要,選取適當(dāng)?shù)囊晥D類型,最后有層次、有順序地使用一個或多個視圖展示數(shù)據(jù)中包含的重要信息。

4. 信息合理原則

合理的信息展示有利于向用戶清晰地敘述故事,視圖不是越多越好。合理的基本評判標(biāo)準(zhǔn)是:篩選信息密度,使信息展示量恰到好處;區(qū)分信息主次,使信息顯示主次分明。

5. 直觀映射原則

可視化的核心是要使用戶在最短的時間內(nèi)獲得數(shù)據(jù)表達的信息,所以要充分利用內(nèi)在經(jīng)驗,從數(shù)據(jù)中選取適當(dāng)?shù)臄?shù)據(jù)映射到可視化元素,以提高可視化設(shè)計的實用性。

6. 視圖交互原則

可在數(shù)據(jù)可視化期間自動交換數(shù)據(jù)信息,從而促進可視化的交互。在需要用戶交互操作時,要保證操作的引導(dǎo)性與預(yù)見性,并在交互之后有反饋,使整個可視化故事自然連貫。

7. 信息隱喻原則

在利用數(shù)據(jù)敘述故事時,將陌生的數(shù)據(jù)信息用可視化用戶熟悉的事物進行比較,可以降低可視化用戶的理解門檻,深入了解你的產(chǎn)品,提高視覺使用者對故事的理解。

8. 巧用過渡原則

動畫和轉(zhuǎn)播效果使視覺效果更豐富、更易理解,可以提高用戶互動的反饋度,還可以增強重點信息或者整體畫面的表現(xiàn)力,吸引用戶的關(guān)注力,加深用戶對視圖的印象。

2.1.2 項目目標(biāo)、系統(tǒng)設(shè)計與階段劃分

1. 項目具體目標(biāo)

BI項目的目標(biāo)是解決企業(yè)在數(shù)據(jù)分析工作中遇到的問題與瓶頸,為企業(yè)提供所需的數(shù)據(jù)支持,具體內(nèi)容包括以下方面,如圖2-3所示。

圖2-3 項目目標(biāo)

(1)滿足數(shù)據(jù)查詢。伴隨著企業(yè)的成長,數(shù)據(jù)分析員的數(shù)量越來越多,項目在線運行必須能夠承受數(shù)據(jù)分析員同時執(zhí)行查詢語句的負載,只有這樣,才能最大限度地提高多人協(xié)作的效率。系統(tǒng)對查詢語句的執(zhí)行速度也要夠快,才能保證數(shù)據(jù)分析與輸出的效率。

(2)積累數(shù)據(jù)需求。企業(yè)的數(shù)據(jù)分析,比較理想的情況是數(shù)據(jù)分析員已經(jīng)將大量的數(shù)據(jù)需求進行了整合,并將業(yè)務(wù)方的一些指標(biāo)沉淀為報表的形式,然后形成定期報告或?qū)崟r報告,即席查詢作為整個需求系統(tǒng)的一部分,起到補充、驗證的作用。通過即席查詢的方式,不僅可以減少分析人員大量的重復(fù)性工作,提高業(yè)務(wù)方面的數(shù)據(jù)使用體驗,還能顯著降低系統(tǒng)負載。

(3)統(tǒng)一數(shù)據(jù)口徑。企業(yè)對數(shù)據(jù)的穩(wěn)定性、連貫性等方面有著很高的期望,數(shù)據(jù)組應(yīng)為一個整體,對外輸出一致的數(shù)據(jù)。若統(tǒng)計口徑不統(tǒng)一,各指標(biāo)算法不一致,將導(dǎo)致分析人員對同一項指標(biāo)給出的數(shù)據(jù)不一致,甚至難以自圓其說。因此,需要建立統(tǒng)一的指標(biāo)體系,詳細定義每一個指標(biāo)的具體算法。

(4)規(guī)范數(shù)據(jù)集。因為企業(yè)經(jīng)歷了后端數(shù)據(jù)庫的遷移,所以現(xiàn)在有兩種后端數(shù)據(jù)庫共存。從歷史上看,前臺埋點返回的數(shù)據(jù)是由兩個后端數(shù)據(jù)庫的鍵混合在一起的,這就造成了數(shù)據(jù)分析員要花很多時間處理遷移前和遷移后兩個關(guān)鍵字段之間的聯(lián)系,模式的標(biāo)準(zhǔn)化需要處理大量的連接操作,數(shù)據(jù)的使用體驗不佳。所以,新開發(fā)的BI平臺希望以數(shù)據(jù)倉庫技術(shù)為基礎(chǔ),提供一套集成、統(tǒng)一、易用的數(shù)據(jù)集,以進一步提高數(shù)據(jù)分析的效率和數(shù)據(jù)使用體驗。

2. 系統(tǒng)設(shè)計原則

BI平臺的主要目標(biāo)是提高數(shù)據(jù)分析員的工作效率,同時提高數(shù)據(jù)需求的輸出速度,提供統(tǒng)一的報表入口,盡可能避免數(shù)據(jù)結(jié)構(gòu)變化對數(shù)據(jù)分析的影響,系統(tǒng)設(shè)計的基本原則如下,如圖2-4所示。

圖2-4 系統(tǒng)設(shè)計的基本原則

(1)創(chuàng)建中間層。對原始數(shù)據(jù)建立中間表,數(shù)據(jù)分析就不會直接依靠原始數(shù)據(jù),原始數(shù)據(jù)的更改也就不會直接影響分析代碼的可用性。

(2)梳理業(yè)務(wù)過程。對業(yè)務(wù)方感興趣的業(yè)務(wù),預(yù)處理一批中間表,以離線計算或?qū)崟r計算的形式完成數(shù)據(jù)匯總等運算,提高查詢速度。

(3)整理需求類別。根據(jù)業(yè)務(wù)方面的要求,以報告的形式提供需求,即席查詢只是處理臨時需求,減輕數(shù)據(jù)分析員的工作負擔(dān)。

3. 項目階段劃分

BI系統(tǒng)的開發(fā)過程比較復(fù)雜,針對電商企業(yè)的實際需求,項目可以分為以下幾個階段,如圖2-5所示。

圖2-5 項目階段劃分

(1)數(shù)據(jù)準(zhǔn)備階段。明確需要哪些商品信息,以及如何獲取真實、有效的商品銷售數(shù)據(jù)。

(2)數(shù)據(jù)提取階段。對于第一步獲取的原始數(shù)據(jù),其格式、結(jié)構(gòu)參差不齊,因此如何對這些數(shù)據(jù)進行清洗、轉(zhuǎn)換并從中提取有效信息,是最為關(guān)鍵也較為復(fù)雜的一步。

(3)數(shù)據(jù)存儲階段。對提取的原始數(shù)據(jù)進行數(shù)據(jù)清洗處理及格式轉(zhuǎn)換,針對有效數(shù)據(jù)設(shè)計數(shù)據(jù)庫結(jié)構(gòu),建立相應(yīng)數(shù)據(jù)庫,并且能對數(shù)據(jù)庫中存儲的數(shù)據(jù)表進行查詢、更新等操作。

(4)數(shù)據(jù)可視化階段。對于不同維度甚至多維度數(shù)據(jù),選擇高效、靈活的可視化方式進行展示,并且在可視化圖表中實現(xiàn)交互,用戶可通過圖表透視數(shù)據(jù)庫具體內(nèi)容,還可以將多個數(shù)據(jù)切片整合到一個可視化看板中。

(5)分析總結(jié)階段。可視化圖表將數(shù)據(jù)以直觀的方式展現(xiàn)出來,管理者可通過對圖表信息的對照分析,總結(jié)產(chǎn)品銷售情況,并對未來做出合理預(yù)測。

主站蜘蛛池模板: 工布江达县| 梨树县| 息烽县| 桑植县| 泾阳县| 五家渠市| 承德县| 塔河县| 邹城市| 华蓥市| 织金县| 姚安县| 彭州市| 合川市| 天全县| 胶南市| 北川| 南溪县| 乌什县| 称多县| 浦县| 珲春市| 横山县| 亳州市| 玉树县| 安乡县| 赤水市| 绥芬河市| 宽甸| 龙南县| SHOW| 五莲县| 平谷区| 凉城县| 昭觉县| 岑溪市| 茶陵县| 盘山县| 萨嘎县| 惠安县| 孝感市|