- 數據挖掘與數據分析:基于R語言
- 王陽主編
- 1418字
- 2024-05-10 11:11:44
PREFACE
前言
在人類社會發展的進程中,數據一直承載著信息記錄的重要作用。從人類文明誕生伊始的“結繩記事”,到當今信息技術的“數學建模”,數據見證了人類歷史的進步與變遷。近年來,隨著大數據時代的來臨,數據生成往往具有速度快、數據量大的特點,數據結構多樣復雜,其中蘊含的應用價值非常高。
為了應對日趨復雜的海量數據,數據分析技術得到了快速發展。傳統的數據分析技術側重于對統計學方法的應用,如今,側重于機器學習的數據挖掘技術正不斷走向成熟。數據挖掘技術可以從大量模糊的現實數據中挖掘出潛在的信息,借助數據庫技術、機器學習、數學算法、可視化技術等手段揭示事物之間的關聯性和潛在規律,使數據轉變成信息,信息進一步升華為知識。可以預見的是,在未來的農業、工業、教育、醫療等多個領域的推動下,數據分析技術將發展到一個全新的高度,也必將扮演更加重要的角色。
我們在西北工業大學為碩士研究生(含學術學位和專業學位)開設了數據挖掘與商務數據分析課程,該課程目前已設立5年之久,學習該課程的學生累計超過550人。課程中制作的講義課件和相關案例是本書理論部分的基礎,實驗課上的數據集和上機內容則構成了本書實踐部分的主體。隨著課程內容的迭代與積累,本書包含的內容也在不斷豐富完善。本書定稿后已在西北工業大學作為教材試用。
課程開設之初,我們查閱過許多數據挖掘相關的圖書,遺憾的是,它們包含的內容并不足以匹配我們課程的教學目標。為了讓學生熟練掌握數據挖掘技術的理論方法與基礎知識,并能夠將其付諸實踐,我們在本書的前兩章中詳細介紹了R語言基礎,同時結合實例給出了具體操作過程。我們希望讀者能夠在不借助任何其他課程知識的情況下,即可對商務應用場景中的數據進行描述性數據分析、可視化和高級數據模型構建。
概述
總的來說,本書將數據分析和挖掘基本原理、數據分析案例、模型構建、模型代碼實現和結果分析相結合,幫助讀者更好地掌握R語言在實際場景中的應用,根據具體業務需求制定智能決策方案。
本書總共有12章,前10章包含10個主題:R語言基礎、R語言可視化技術、線性回歸、邏輯回歸、決策樹與回歸樹、隨機森林、貝葉斯分類器、層次聚類、K均值聚類、關聯規則分析。本書的最后兩章介紹了兩個具體的案例分析。
為了加深讀者對每部分知識的理解,提高讀者的實踐能力,我們在每章結尾處都設置了本章小結和課后習題。
本書提供的教輔材料包括:課程幻燈片、實驗數據集、源代碼、課后習題及答案。
本書的編寫過程獲得了多位老師的大力相助。王陽老師主要負責設計本書整體框架,并撰寫了本書的大部分內容。胡文杰老師主要負責編寫代碼,對代碼運行結果進行分析,設計例題以及校對文字。梁韻基老師主要負責設計案例和校對文字。馮建廣老師撰寫了本書的線性回歸與邏輯回歸部分,周珍與張新衛老師共同編寫了決策樹與回歸樹、隨機森林兩個部分的內容,陳志老師主要設計了兩個具體的案例分析。
致謝
本書在編寫的過程中,許多人為其付出了心血。在此感謝西北工業大學信息與知識管理團隊的學生,王秋實、范瓊瑜、周思佳、閆勇為本書實驗部分的代碼編寫與測試投入了大量精力,王俊鵬、翟寒、吳松給本書提出了許多重要的建議及反饋。我們同時要感謝西北工業大學選修數據挖掘與商務數據分析課程的同學,他們作為本書的第一批使用者,提出了寶貴的修改意見。
我們還要感謝西北工業大學的其他老師,他們為本書提供了富有建設性的反饋,特別感謝陳志老師為本書的實驗部分提供了豐富的計算資源,搭建了良好的測試環境。