- 面向現(xiàn)代服務(wù)業(yè)大數(shù)據(jù)的高效數(shù)據(jù)管理研究
- 史曉東
- 794字
- 2022-07-28 20:38:56
3 高大性數(shù)能據(jù)預(yù)環(huán)取境加下權(quán)圖模型
大數(shù)據(jù)本身具有數(shù)據(jù)規(guī)模龐大、價(jià)值密度低的特點(diǎn),這直接導(dǎo)致大數(shù)據(jù)存儲的成本問題非常突出。磁盤類存儲設(shè)備以其較低的價(jià)格和可接收的性能保持其在數(shù)據(jù)存儲中的主流地位。磁盤存儲設(shè)備在其訪問過程中具有很強(qiáng)的機(jī)械特征,受到尋道(Seek)、定位(Rotation)等操作的限制,磁盤對于數(shù)據(jù)的訪問模式非常敏感,比如順序訪問的性能可以達(dá)到隨機(jī)訪問性能的十倍甚至百倍數(shù)量級以上,大量提升存儲系統(tǒng)性能的技術(shù)如預(yù)取算法都需要挖掘數(shù)據(jù)訪問的順序性。
順序訪問是一種普遍存在的訪問模式,它廣泛存在于大數(shù)據(jù)應(yīng)用中。無論是在數(shù)據(jù)庫應(yīng)用、事務(wù)處理還是在大規(guī)模的科學(xué)計(jì)算中,應(yīng)用總是需要對一部分相互關(guān)聯(lián)的數(shù)據(jù)進(jìn)行順序的讀取以滿足其在計(jì)算過程中的數(shù)據(jù)需求。這種訪問模式對于底層存儲設(shè)備尤其是磁盤設(shè)備的吞吐率具有至關(guān)重要的影響。相對于隨機(jī)的磁盤數(shù)據(jù)訪問來說,順序訪問能夠大大提高磁盤的讀寫性能,這種性能的提升往往能夠達(dá)到一個(gè)甚至多個(gè)數(shù)量級。如此一來,如何有效地挖掘以及利用順序訪問就成為存儲領(lǐng)域一個(gè)非常重要的課題。有大量的研究集中在這個(gè)方面,它們從不同的角度來增加順序訪問在工作負(fù)載中的比例,例如,改善數(shù)據(jù)物理上的分布從而使得應(yīng)用對數(shù)據(jù)的訪問更趨于順序化,利用各種技術(shù)開發(fā)夾雜在訪問流中的順序訪問。然而,順序訪問流本身長度的不確定性在很大程度上制約了順序訪問模式在存儲系統(tǒng)中的應(yīng)用。因此,有效利用順序訪問的關(guān)鍵在于找到一種精確的方法來定量預(yù)測順序流的長度。傳統(tǒng)方法采用離線統(tǒng)計(jì)來模擬不規(guī)則的順序流長度,也有一些文獻(xiàn)在其算法中采用定性的方式來分析順序流,然而這些方法都無法準(zhǔn)確地反映出真實(shí)系統(tǒng)中順序流的信息,也無法適應(yīng)不同工作負(fù)載的特點(diǎn)。為了解決這個(gè)問題,本章提出加權(quán)圖模型[132],它能夠記錄并預(yù)測順序流的長度。加權(quán)圖模型與其他基于順序流的性能改善技術(shù)并不沖突反而具有很強(qiáng)的互補(bǔ)性,可以對后者的進(jìn)一步完善和改進(jìn)提供支持。