1.2 數據挖掘的起源及發展
1.數據挖掘的起源
數據挖掘技術出現于20世紀80年代末,是在多門學科發展的基礎上發展起來的。隨著數據庫技術的發展應用,數據不斷積累膨脹,簡單的查詢和統計已無法滿足企業的商業需求,急需一些革命性的技術挖掘數據背后的信息。與此同時,計算機領域的人工智能(Artificial Intelligence,AI)也取得了巨大進展,進入了機器學習階段。因此,人們將兩者結合,用數據庫管理系統存儲數據,用計算機分析數據,并嘗試挖掘數據背后的信息,這兩者的結合促生了一門新的學科,即數據挖掘[8]。
1989年8月,美國底特律市召開第十一屆國際聯合人工智能學術會議,首次提到“知識發現”這一概念;1993年,電氣電子工程師學會(IEEE)的知識與數據工程(Knowledge and Data Engineering)會刊出版KDD技術專刊,發表的論文和摘要體現了當時KDD的最新研究成果和動態。1995年,加拿大蒙特利爾召開首屆“知識發現和數據挖掘”國際學術會議,首次提出“數據挖掘”這一學科名稱,并把數據挖掘技術分為科研領域的知識發現與工程領域的數據挖掘,之后每年召開一次,經過十幾年的努力,人們對數據挖掘技術的研究已經取得了豐碩的成果。
2.數據挖掘的研究熱點
數據挖掘的研究熱點[9]主要包括以下幾個方面。
1)多媒體數據挖掘
多媒體數據包括圖形、圖像、文本、文檔、超文本、聲音、視頻和音頻數據等。隨著信息技術的進步,人們所接觸的數據形式越來越豐富,多媒體數據的大量涌現,形成了很多海量的多媒體數據庫。很多數據都是非結構化的,所以首先要將這些數據轉化為結構化數據,研究者提出了多媒體數據挖掘的系統原型MDMP,主要過程是將多媒體數據的建模、表示、存儲和檢索等多媒體數據庫技術與數據挖掘技術結合在一起,采用多媒體圖像數據的相似性搜索、多維分析、關聯規則挖掘、分類與聚類分析等挖掘方法。
2)時序數據挖掘
時序數據挖掘是指通過研究數據的時間特性,深入發掘事物演變機制,揭示其內在規律。成為獲得知識的有效途徑,時序數據挖掘技術的關鍵是要尋找一種合適的序列表示方式,根據點距離和關鍵點建立時序序列是常用的方法。時序數據挖掘的主要技術有趨勢分析與相似搜索,在宏觀經濟預測領域、市場營銷、客流量分析、股票價格波動等眾多領域得到了應用。在專利數據挖掘領域,專利的編號、年份等信息可以利用時序數據挖掘技術進行檢索分析。
3)Web數據挖掘
隨著網絡技術的快速普及和飛速發展,在網絡上可獲得數量龐大的信息。但通過這種方式獲得的數據普遍都具有量大、分布廣泛、全球性多樣和動態變化的特點。面對如此大量的網絡數據,如何在這樣全球化的、大的數據集合中發現有用信息已經成為Web數據挖掘研究的熱點。
4)文本數據挖掘
文本數據挖掘被定義為從文本中挖掘出有意義的知識方法和技術。文本數據挖掘根據知識類型的不同,可以分為文本總結、文本分類、分布分析和趨勢分析。
(1)文本總結。文本總結就是從文本中抽取一些關鍵信息,對文本內容進行概括,這樣用戶不需要閱讀文本的全文就可以大致了解文本中所涉及的內容。
(2)文本分類。文本分類指的是根據帶有特定關鍵信息的樣文和樣文中的關鍵信息對數量龐大的文本進行分類,通過限制檢索范圍的方法使得檢索更加精確。
(3)分布分析和趨勢分析。分布分析和趨勢分析就是對文本某一特定方面,得到數據在歷史時期和現在的情況,并根據此情況分析出未來的發展趨勢。
3.數據挖掘的挑戰
在大數據背景下數據挖掘要面臨的挑戰主要表現在以下幾個方面[4,10]。
(1)數據類型的多樣性:不同的應用、系統和終端,由于標準的差異性,會產生不同結構的數據,其中包括結構化數據、半結構化數據和非結構化數據,對這些異構化數據的抽取與集成將成為一大挑戰。
(2)數據挖掘分析模型的重構:在大數據背景下,要實現用低成本和可擴展的方式處理大數據,就需要對IT架構進行重構,開發和使用先進的軟件平臺和算法。Hadoop是目前最為流行的大數據處理平臺之一,圍繞Hadoop平臺應用也已開展大量工作。目前,盡管計算機智能化有了很大進步,但還只是針對小規模、有結構或者類結構的數據進行分析,對于深層次的數據挖掘,現有數據挖掘算法在不同行業中還難以通用。
(3)清洗粒度大小不易把握:普適終端所處地理位置具有復雜性,因此其產生的數據具有很多噪聲。在進行數據清洗時,不易把握清洗粒度。粒度太大,殘留的噪聲會干擾有價值的信息;粒度太小,可能會遺失有價值的信息。
(4)數據開放與隱私的權衡:互聯網的交互性,使得人們在不同位置產生的數據足跡得到積累和關聯,從而增加了隱私暴露的概率,且這種隱性的數據暴露往往是無法控制和預知的。隨著數據挖掘工具和電子產品的日益普及,如何在推動數據全面開放、應用和共享的同時,有效地保護公民和企業的隱私、逐步加強隱私立法,將是數據挖掘要面對的一個重要問題。
4.數據挖掘的發展趨勢
數據挖掘的發展趨勢[11]如下。
(1)數據挖掘語言的標準化描述:標準的數據挖掘語言將有助于數據挖掘的系統化開發,改進多個數據挖掘系統和功能間的互操作,促進其在企業和社會中的使用。
(2)數據挖掘過程的可視化方法:可視化要求已經成為數據挖掘系統中必不可少的技術,可以在發現知識的過程中進行很好的人機交互。數據的可視化起到了推動人們主動進行知識發現的作用。
(3)與特定數據存儲類型的適應問題:根據不同數據存儲類型的特點,進行針對性的研究是目前流行及將來一段時間必須面對的問題。
(4)網絡與分布式環境下的數據挖掘問題:隨著互聯網的不斷發展,網絡資源日漸豐富,這就需要分散的技術人員各自獨立地處理分離數據庫的工作方式應是可協作的。因此,考慮適應分布式與網絡環境的工具、技術及系統將是數據挖掘中極為重要的子領域。
(5)應用的探索:隨著數據挖掘的日益普遍,其應用范圍也日趨擴大,如生物醫學、電信業、零售業等領域。由于數據挖掘在處理特定應用問題時存在局限性,因此目前的研究趨勢是開發針對特定應用的數據挖掘系統。
(6)數據挖掘與數據庫系統和Web數據庫系統的集成:數據庫系統和以Web查詢接口方式訪問數據庫資源的Web數據庫系統已經成為信息處理系統的主流。通常來說,數據存儲在數據庫系統和Web數據庫系統中,并在此之上進行數據挖掘和應用。
- 電容探測原理及應用
- 中華優秀傳統文化(慕課版·第2版)
- 臨床血液學檢驗技術
- 服飾新視界:武漢紡織大學服裝學院學術論壇(2014)
- 常耀信《美國文學簡史》(第3版)配套題庫【章節題庫(含名校考研真題)+模擬試題】
- 實用數據結構基礎學習指導(第二版)
- 美術高考風向標:中央美術學院、清華大學美術學院設計藝術專業高考試題分析與比較
- 新媒體廣告傳播的問題與治理
- 土地整治工程制圖
- 布蘭查德《宏觀經濟學》(第6版)筆記和課后習題詳解
- 學前比較教育(第二版)
- 《新版中日交流標準日本語中級(上)》學習指南【課文重點+詞匯剖析+語法精解+拓展知識+全文翻譯】
- 電化學分析儀器設計與應用
- 吳侃《高級日語1》學習指南【課文重點+詞匯剖析+語法精解+全文翻譯+練習答案】
- 2020年考研英語(一)完形填空高分特訓100篇【命題分析+答題攻略+強化訓練】