- 大數據基礎與應用
- 趙國生 王健 宋一兵主編
- 3764字
- 2021-12-15 16:00:21
1.2 大數據的結構與特征
大數據是互聯網發展到現今階段的一種表象或特征,在以云計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據,開始以不同的形式和結構被利用了起來。
1.2.1 大數據的結構
想要系統地認知大數據,必須要全面而細致地分解它,從以下三個層面來展開。
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特征定義來理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。可以分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。可以分別從互聯網的大數據、政府的大數據、企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分,圖1-1為大數據的三種結構。

圖1-1 大數據的三種結構
1.結構化數據
結構化數據,簡單來說就是數據庫。也稱作行數據,是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。結構化數據標記,是一種能讓網站以更好的姿態展示在搜索結果當中的方式,搜索引擎都支持標準的結構化數據標記。
結構化數據可以通過固有鍵值獲取相應信息,且數據的格式固定,如RDBMS data。結構化數據最常見的就是具有模式的數據,結構化就是模式。大多數技術應用基于結構化數據。
2.半結構化數據
半結構化數據和普通純文本相比具有一定的結構性,但和具有嚴格理論模型的關系型數據庫的數據相比更靈活。它是一種適合于數據庫集成的數據模型,也就是說,適于描述包含在兩個或多個數據庫(這些數據庫含有不同模式的相似數據)中的數據。它是一種標記服務的基礎模型,用于Web上共享信息。對半結構化數據模型感興趣的動機主要是它的靈活性。特別的,半結構化數據是“無模式”的。更準確地說,其數據是自描述的,它攜帶了關于其模式的信息,并且這樣的模式可以隨時間在單一數據庫內任意改變。
這種靈活性可能使查詢處理更加困難,但它給用戶提供了顯著的優勢。例如,可以在半結構化模型中維護一個電影數據庫,并且能如用戶所愿地添加類似“我喜歡看此部電影嗎?”這樣的新屬性。這些屬性不需要所有電影都有值,或者甚至不需要多于一個電影有值。同樣的,可以添加類似“homage to”這樣的聯系而不需要改變模式,或者甚至表示不止一對的電影間的聯系。
因為要了解數據的細節,所以不能將數據簡單地組織成一個文件并按照非結構化數據處理,由于結構變化很大也不能夠簡單地建立一個表和它對應。
半結構化數據可以通過靈活的鍵值調整獲取相應信息,且數據的格式不固定,如json,同一鍵值下存儲的信息可能是數值型的,可能是文本型的,也可能是字典或者列表。
半結構化數據的數據是有結構的,但卻不方便模式化,或者因為描述不標準,或者因為描述有伸縮性,總之不能模式化。XML和json表示的數據就有半模式的特點。
半結構化數據中結構模式附著或相融于數據本身,數據自身就描述了其相應結構模式,半結構化數據具有下述特征。
1)數據結構自描述性。結構與數據相交融,在研究和應用中不需要區分“元數據”和“一般數據”(兩者合二為一)。
2)數據結構描述的復雜性。結構難以納入現有的各種描述框架,實際應用中不易進行清晰的理解與把握。
3)數據結構描述的動態性。數據變化通常會導致結構模式變化,整體上具有動態的結構模式。
常規的數據模型例如E-R模型、關系模型和對象模型恰恰與上述特點相反,因此可以成為結構化數據模型。而相對于結構化數據,半結構化數據的構成更為復雜和不確定,從而也具有更高的靈活性,能夠適應更為廣泛的應用需求。其實,用半模式化的視角看待數據是非常合理的。沒有模式的限定,數據可以自由地流入系統,還可以自由地更新。這更便于客觀地描述事物。在使用時模式才應該起作用,使用者想獲取數據就應當構建需要的模式來檢索數據。由于不同的使用者構建的模式不同,數據將最大化地被利用。這才是最自然的使用數據的方式。
3.非結構化數據
非結構化數據是與結構化數據相對的,不適合于由數據庫二維表來表現,包括所有格式的辦公文檔、XML、HTML、各類報表、圖片和音頻、視頻信息等。支持非結構化數據的數據庫采用多值字段、子字段和變長字段機制進行數據項的創建和管理,廣泛應用于全文檢索和各種多媒體信息處理領域。據IDC的一項調查報告中指出:企業中80%的數據都是非結構化數據,且這些數據每年都按指數增長60%。
非結構化數據不可以通過鍵值獲取相應信息。非結構化一般指無法結構化的數據,例如圖片、文件、超媒體等典型信息,在互聯網上的信息內容形式中占據了很大比例。隨著“互聯網+”戰略的實施,將會有越來越多的非結構化數據產生,據預測,非結構化數據將占據所有各種數據的70%~80%以上。結構化數據分析挖掘技術經過多年的發展,已經形成了相對比較成熟的技術體系。也正是由于非結構化數據中沒有限定結構形式,表示靈活,因此蘊含了豐富的信息。綜合看來,在大數據分析挖掘中,掌握非結構化數據處理技術是至關重要的。
其挑戰性問題在于語言表達的靈活性和多樣性,具體的非結構化數據處理技術包括:
1)Web頁面信息內容提取;
2)結構化處理(含文本的詞匯切分、詞性分析、歧義處理等);
3)語義處理(含實體提取、詞匯相關度、句子相關度、篇章相關度、句法分析等);
4)文本建模(含向量空間模型、主題模型等);
5)隱私保護(含社交網絡的連接型數據處理、位置軌跡型數據處理等)。
這些技術所涉及的技術較廣,在情感分類、客戶語音挖掘、法律文書分析等許多領域都有廣泛的應用價值。
1.2.2 大數據的特征
大數據具有4V特征,即Volume(大量)、Variety(多樣)、Velocity(高速)和Veracity(精確),其核心在于對這些含有意義的數據進行專業化處理。
(1)數據體量巨大
指大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;資料表明,百度新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果打印出來將超過5000億張A4紙。有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200PB。
例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人計算機。此外,各種意想不到的來源都會產生數據。
在2003年,人類第一次破譯人體基因密碼時,用了10年才完成了30億對堿基對的排序;而在10年之后,世界范圍內的基因儀15min就可以完成同樣的工作量。伴隨著各種隨身設備、物聯網和云計算、云存儲等技術的發展,人和物的所有軌跡都可以被記錄,數據因此被大量產生出來。
移動互聯網的核心網絡節點是人,不再是網頁,人人都成為數據制造者,短信、微博、照片、錄像都是其數據產品;數據來自無數自動化傳感器、自動記錄設施、生產監測、環境監測、交通監測、安防監測等;也來自自動流程記錄,刷卡機、收款機、電子不停車收費系統,互聯網點擊、電話撥號等設施以及各種辦事流程登記等。
(2)數據類別多和類型多樣
數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化。數據范疇囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕大多數。
數據多樣性的增加主要是由新型多結構數據造成,包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型。
大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析的情況。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。多樣化的數據來源正是大數據的威力所在,例如交通狀況與其他領域的數據都存在較強的關聯性。大數據不僅是處理巨量數據的利器,更為處理不同來源、不同格式的多元化數據提供了可能。
(3)處理速度快
高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速計算機處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。
在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。在未來,越來越多的數據挖掘趨于前端化,即提前感知預測并直接提供服務給所需要的對象,這也需要大數據具有極快的處理速度。
(4)價值真實性高和密度低
數據真實性高,隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。
數據的真實性和質量是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎。
- 列車傳動與控制
- 工業企業的綠色轉型與升級:工業企業必選項
- 大氣污染與應稅污染物監測
- 物流管理(第三版)
- 楊錫懷《企業戰略管理—理論與案例》(第3版)筆記和課后習題詳解
- 2020年中外教育史考點歸納及典型題(含考研真題)詳解
- 物流系統規劃與設計
- 文學欣賞
- 王珊《數據庫系統概論》(第5版)章節專項練習及詳解
- 車用單片機原理(含實驗與實訓指導)
- 國際服裝商務(第2版)
- 實驗心理學考點歸納及典型題(含歷年真題)詳解
- 注冊土木工程師(巖土)《專業知識考試》歷年真題與模擬試題詳解
- 津巴多《心理學與生活》配套題庫【名校考研真題+章節題庫+模擬試題】
- 王鏡巖《生物化學》(第3版)(上冊)配套題庫【名校考研真題+課后習題+章節題庫+模擬試題】