- 大數(shù)據(jù)分析:數(shù)據(jù)倉庫項目實戰(zhàn)
- 尚硅谷IT教育編著
- 2121字
- 2021-01-05 18:09:52
1.2 數(shù)據(jù)倉庫概論
1.2.1 什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的資源集合。它出于分析性報告和決策支持目的而創(chuàng)建。
隨著技術(shù)的飛速發(fā)展,經(jīng)過多年的數(shù)據(jù)積累,各互聯(lián)網(wǎng)公司已保存了海量的原始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),所以數(shù)據(jù)倉庫技術(shù)是各互聯(lián)網(wǎng)公司目前需要著重發(fā)展的技術(shù)領(lǐng)域。數(shù)據(jù)倉庫是面向分析的集成化數(shù)據(jù)環(huán)境。通過對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析,可以幫助企業(yè)改進業(yè)務(wù)流程、控制成本、提高產(chǎn)品質(zhì)量等。
1.2.2 數(shù)據(jù)倉庫能干什么
數(shù)據(jù)倉庫系統(tǒng)是一個信息服務(wù)和管理平臺,它從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星形模型和雪花模型組織數(shù)據(jù),并為用戶從數(shù)據(jù)中獲取信息和知識提供各種手段。
按照功能結(jié)構(gòu)劃分,數(shù)據(jù)倉庫系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲取(Data Acquisition)、數(shù)據(jù)存儲(Data Storage)和數(shù)據(jù)訪問(Data Access)三個關(guān)鍵部分。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)的。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,幫助他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用、才有意義。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從企業(yè)的角度看,數(shù)據(jù)倉庫的建設(shè)是一個工程。
1.2.3 數(shù)據(jù)倉庫的特點
1.數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的
與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進行數(shù)據(jù)組織的特點相對應(yīng),數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行數(shù)據(jù)組織的。什么是主題呢?首先,主題是一個抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各分析對象所涉及企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對于面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。
2.數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的
數(shù)據(jù)倉庫中的數(shù)據(jù)是從原有的、分散的數(shù)據(jù)庫中抽取來的,抽取的數(shù)據(jù)可分為操作型數(shù)據(jù)和分析型數(shù)據(jù)兩大類,兩者之間差別甚大。第一,數(shù)據(jù)倉庫的每個主題所對應(yīng)的源數(shù)據(jù)在原有的各分散數(shù)據(jù)庫中有許多重復(fù)和不一致的地方,且來源于不同聯(lián)機系統(tǒng)的數(shù)據(jù)都和不同的應(yīng)用邏輯捆綁在一起;第二,數(shù)據(jù)倉庫中的數(shù)據(jù)不是從原有的數(shù)據(jù)庫系統(tǒng)中直接得到的。因此,數(shù)據(jù)在進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,這一步是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作如下。
① 要統(tǒng)一源數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等。
② 進行數(shù)據(jù)綜合和計算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫中抽取數(shù)據(jù)時完成,但大多數(shù)是在數(shù)據(jù)倉庫內(nèi)部完成的,即進入數(shù)據(jù)倉庫以后進行數(shù)據(jù)綜合。
3.數(shù)據(jù)倉庫中的數(shù)據(jù)是不可更新的
數(shù)據(jù)倉庫中的數(shù)據(jù)主要供企業(yè)管理者決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進行修改操作。數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是相當長的一段時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時間的數(shù)據(jù)庫快照的集合,以及基于這些快照進行統(tǒng)計、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機處理的數(shù)據(jù)。數(shù)據(jù)庫中進行聯(lián)機處理的數(shù)據(jù)經(jīng)過集成輸入數(shù)據(jù)倉庫中,一旦數(shù)據(jù)倉庫存放的數(shù)據(jù)已經(jīng)超過數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,這些數(shù)據(jù)會被刪除。因為數(shù)據(jù)倉庫只能進行數(shù)據(jù)查詢操作,所以數(shù)據(jù)倉庫管理系統(tǒng)相比數(shù)據(jù)庫管理系統(tǒng)而言要簡單得多。數(shù)據(jù)庫管理系統(tǒng)中的許多技術(shù)難點,如完整性保護、并發(fā)控制等,在數(shù)據(jù)倉庫管理系統(tǒng)中幾乎可以忽略。但是在數(shù)據(jù)倉庫中要查詢的數(shù)據(jù)量往往很大,所以就對數(shù)據(jù)查詢提出了更高的要求,它要求采用各種復(fù)雜的索引技術(shù),同時由于數(shù)據(jù)倉庫面向的是商業(yè)企業(yè)的高層管理者,他們會對數(shù)據(jù)查詢界面的友好性和數(shù)據(jù)表示提出更高的要求。
4.數(shù)據(jù)倉庫中的數(shù)據(jù)是隨時間不斷變化的
數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應(yīng)用來說的,也就是說,數(shù)據(jù)倉庫的用戶在進行數(shù)據(jù)分析和處理時是不進行數(shù)據(jù)更新操作的。但并不是說,在從數(shù)據(jù)集成輸入數(shù)據(jù)倉庫開始到最終被刪除的整個數(shù)據(jù)生存周期中,數(shù)據(jù)倉庫中的數(shù)據(jù)都是永遠不變的。
數(shù)據(jù)倉庫中的數(shù)據(jù)是隨時間不斷變化的,這是數(shù)據(jù)倉庫的第4個特點。這一特點表現(xiàn)在以下3個方面。
① 數(shù)據(jù)倉庫隨著時間的變化不斷增加新的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉OLTP數(shù)據(jù)庫中變化的數(shù)據(jù),并追加到數(shù)據(jù)倉庫中,也就是要不斷地生成OLTP數(shù)據(jù)庫的快照,經(jīng)過統(tǒng)一集成后增加到數(shù)據(jù)倉庫中;但對于確實不再變化的數(shù)據(jù)庫快照,如果捕捉到新的變化數(shù)據(jù),則只生成一個新的數(shù)據(jù)庫快照增加進去,而不會對原有的數(shù)據(jù)庫快照進行修改。
② 數(shù)據(jù)倉庫隨時間的變化不斷刪除舊的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫中的數(shù)據(jù)也有存儲期限,一旦超過這一期限,就要被刪除。只是數(shù)據(jù)倉庫中的數(shù)據(jù)時限要遠遠長于操作型環(huán)境中的數(shù)據(jù)時限。在操作型環(huán)境中一般只保存60~90天的數(shù)據(jù),而在數(shù)據(jù)倉庫中則需要保存較長時限的數(shù)據(jù)(如5~10年),以滿足DSS進行趨勢分析的要求。
③ 數(shù)據(jù)倉庫中包含了大量的綜合數(shù)據(jù),其中很多數(shù)據(jù)與時間密切相關(guān),如數(shù)據(jù)經(jīng)常按照時間段進行綜合,或隔一定的時間進行抽樣等。這些數(shù)據(jù)要隨著時間的變化不斷地進行重新綜合。因此,數(shù)據(jù)倉庫的數(shù)據(jù)特征都包含時間項,以標明數(shù)據(jù)的歷史時期。
- MySQL數(shù)據(jù)庫進階實戰(zhàn)
- 計算機組成原理與接口技術(shù):基于MIPS架構(gòu)實驗教程(第2版)
- Learning JavaScriptMVC
- 商業(yè)分析思維與實踐:用數(shù)據(jù)分析解決商業(yè)問題
- 數(shù)據(jù)庫應(yīng)用基礎(chǔ)教程(Visual FoxPro 9.0)
- 算法與數(shù)據(jù)中臺:基于Google、Facebook與微博實踐
- 大話Oracle Grid:云時代的RAC
- 網(wǎng)站數(shù)據(jù)庫技術(shù)
- SQL應(yīng)用及誤區(qū)分析
- Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第3版)
- 一本書講透Elasticsearch:原理、進階與工程實踐
- SQL Server 2012實施與管理實戰(zhàn)指南
- Unity 2018 By Example(Second Edition)
- Access 2010數(shù)據(jù)庫程序設(shè)計實踐教程
- Hands-On Deep Learning for Games