- 中國戰(zhàn)略性新興產(chǎn)業(yè)研究與發(fā)展·智慧工業(yè)
- 王時龍等編著
- 881字
- 2022-06-17 16:50:16
3.1.1 數(shù)據(jù)集成
數(shù)據(jù)集成是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上和物理上有機地集中,從而為用戶提供全面的數(shù)據(jù)共享。實現(xiàn)數(shù)據(jù)集成的系統(tǒng)稱作數(shù)據(jù)集成系統(tǒng),它為用戶提供統(tǒng)一的數(shù)據(jù)源訪問接口,執(zhí)行用戶對數(shù)據(jù)源的訪問請求。
目前,開發(fā)信息集成系統(tǒng)可采用多種方法,但其基本方法可分為兩類:物化方法(Materialized,也稱數(shù)據(jù)倉庫法)和虛擬方法(Virtual,也稱中間件法)。
物化方法指在客戶端與數(shù)據(jù)源(服務(wù)器)之間增加一層,稱為數(shù)據(jù)倉庫,用來存儲來自各數(shù)據(jù)源的待集成數(shù)據(jù),系統(tǒng)提供對這個數(shù)據(jù)倉庫的查詢機制。這種方法存在的問題是當(dāng)信息源的數(shù)據(jù)發(fā)生變化時,數(shù)據(jù)倉庫中的數(shù)據(jù)也要做相應(yīng)的修改。因此,這種間接訪問方式的最大缺點是數(shù)據(jù)更新不及時、數(shù)據(jù)重復(fù)存儲。物化方法通常需要一些新的技術(shù),如有效地數(shù)據(jù)加載和增量更新維護等。
虛擬方法使用與數(shù)據(jù)倉庫法完全不同的結(jié)構(gòu)。在該方法中數(shù)據(jù)仍保存在各數(shù)據(jù)源上,集成系統(tǒng)僅提供一個虛擬的集成視圖(即全局模式)和對該集成視圖查詢的處理機制。系統(tǒng)能自動地將用戶對全局模式的查詢請求轉(zhuǎn)換成對各異構(gòu)數(shù)據(jù)源的查詢,它依賴于兩類軟件組件:封裝器(Wrappers)和中間件(Mediators)。封裝器包裝數(shù)據(jù)源,把底層的數(shù)據(jù)對象轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)模型;在某種程度上,中間件是信息源中數(shù)據(jù)的一個視圖,其中并沒有數(shù)據(jù)。用戶可以對中間件進行查詢,對于每一個用戶的查詢模式需要一個中間件,不同中間件結(jié)果之間一般沒有一致性約束。中間件從包裝器或其他中間件獲取信息,通過集成不同數(shù)據(jù)源信息,并解決它們之間的沖突來提煉信息,然后把信息或者提供給用戶,或者提供給其他的中間件。由于該方法不需要重復(fù)存儲大量數(shù)據(jù),并能保證查詢到最新的數(shù)據(jù),因此比較適合高度自治、集成數(shù)量多且更新變化快的異構(gòu)信息源集成。虛擬方法中的技術(shù)涉及更多的查詢上的代數(shù)操作。首先,中間件應(yīng)當(dāng)確定出哪個信息源對給定的查詢有用,當(dāng)需要集成的信息源巨大時,這一問題是非常重要的;其次,一旦確定了有關(guān)的信息源,中間件應(yīng)當(dāng)執(zhí)行源到源的查詢變換,該過程有時稱為查詢重寫(Query Rewriting)。當(dāng)從兩個或多個信息源抽取數(shù)據(jù)時,中間件還需要生成一個全局的執(zhí)行計劃,以確定用何種順序?qū)π畔⒃催M行查詢。
- AutoCAD快速入門與工程制圖
- LabVIEW虛擬儀器從入門到測控應(yīng)用130例
- Circos Data Visualization How-to
- 商戰(zhàn)數(shù)據(jù)挖掘:你需要了解的數(shù)據(jù)科學(xué)與分析思維
- 塊數(shù)據(jù)5.0:數(shù)據(jù)社會學(xué)的理論與方法
- 西門子變頻器技術(shù)入門及實踐
- Red Hat Linux 9實務(wù)自學(xué)手冊
- Mastering Geospatial Analysis with Python
- Mastering Exploratory Analysis with pandas
- 基于ARM9的小型機器人制作
- 計算機組裝與維修實訓(xùn)
- 玩轉(zhuǎn)PowerPoint
- 傳感技術(shù)基礎(chǔ)與技能實訓(xùn)
- Oracle 11g基礎(chǔ)與提高
- 洞察大數(shù)據(jù)價值:SAS編程與數(shù)據(jù)挖掘