- 商務數據分析與應用(第2版)
- 楊鳳 何亮主編
- 4944字
- 2024-07-15 18:00:04
任務1-1 數據及數據結構
任務導入
任務 使用Excel進行數據挖掘
實訓情境:
當今時代,大數據已逐步滲透到每一個行業和業務職能領域,數據分析實訓已從傳統的統計部門和專門的數據分析行業蔓延到社會的各行各業,數據分析的技能成為未來人才的一種基本技能。
根據崗位實訓內容,我們可提煉出典型實訓活動,具體如下:
(1)掌握數據的概念;
(2)理解數據的分類和數據結構;
(3)理解不同機器學習算法及算法應用場景。
學習目標:
知識目標:(1)掌握數據的概念;
(2)理解數據的分類和數據結構。
技能目標:理解不同機器學習算法及算法應用場景。
思政目標:了解我國大數據產業的發展現狀及需求。
學習導圖:

實訓任務
實訓任務書
任務名稱:_______________
任務功能:_______________
典型實訓任務:____________

注意事項:
1.請嚴格按照實訓任務內容要求實踐,不得隨意更改實訓流程。
2.完成實訓內容后,請進行清單檢查,完成請打鉤。
學生簽名:
情境描述
某店鋪在開店初期計劃做一定程度的推廣,想測試推廣后實現的利潤是否有所增長以及增長幅度。在明確數據分析結構后,學生需要著手做好數據分析環境配置實訓,為后續完成數據導入、分析、運行及生成報表等實訓做一定基礎準備。
實訓計劃
對店鋪典型工作活動進行提取,并輔以學習知識點,組成新型實訓計劃。
實訓流程圖如圖1.1所示。
(備注:實訓流程圖上方為該環節所需知識點,下方為項目實踐活動。)

圖1.1 實訓流程圖
典型實訓活動:環境配置
實訓要點1:準備SQL插件安裝包材料
實訓要點2:準備安裝插件至Excel中
實訓任務:準備數據挖掘需要的SQL插件安裝包材料并安裝,實現環境配置要求。
學習目標
本實訓的學習目標如表1.1所示。
表1.1 學習目標

知識講解
任務 了解數據及數據結構
一、數據概述
(一)數據的定義
數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。
(二)數據與信息的關系
計算機數據是指計算機中能被識別和處理的物理符號,如數字符號、圖形、圖像、聲音等。數據分為數值型數據(如整數、實數)和非數值型數據(如數字符號、圖形、圖像、聲音等),數據是信息的表現形式。
信息與數據既有聯系,又有區別。數據是符號,是物理性的,信息是對數據進行加工處理之后所得到的并對決策產生影響的數據,是邏輯性和觀念性的;數據是信息的表現形式,信息是數據有意義的表示。數據是信息的表現形式和載體,可以是符號、文字、數字、語音、圖像、視頻等。而信息是數據的內涵,信息加載于數據之上,對數據作具有含義的解釋。數據本身沒有意義,數據只有對實體行為產生影響時才成為信息。
二、數據的特點
(一)變異性
數據的變異性包括以下兩方面的含義。一是指一組數據的多數取值是不相同的。因為數據是用來描述事物的量化特征的,世界上不同的事物大都具有不同的特征,因此,其數量表現也是不同的。二是指在不同的時間、地點測量同一事物的數量特征也可能得出不同的結果,特別是在對人的精神屬性的測量方面。
(二)規律性
雖然數據具有變異性,初看起來一組數據往往是雜亂無章的,但統計學的研究表明,一組大樣本的數據其實是具有一定規律的。尋找這種規律就是研究目的之一。正因為數據具有變異性,所以對數據的研究才有必要,如果都是相同的數據也就沒有研究的必要了;也正因為數據具有規律性,所以對其進行研究才有可能。
三、數據的常用結構
數據結構是一種具有一定邏輯關系、在計算機中應用某種存儲結構,并且封裝了相應操作的數據元素的集合,它包含三方面的內容:邏輯關系、存儲關系以及運算。數據結構分為邏輯結構、存儲結構(物理結構)以及其他常用結構。
(一)邏輯結構
數據的邏輯結構主要反映數據元素之間的邏輯關系,其中的邏輯關系是指數據元素之間的前后件關系,而與它們在計算機中的存儲位置無關。它是從具體問題抽象出來的數學模型,是描述數據元素及其關系的數學特性的,如圖1.2所示。

圖1.2 數據的邏輯結構表現形式
(二)存儲結構
數據的存儲結構也稱物理結構,是指數據的邏輯結構在計算機存儲空間的存放形式。數據的物理結構是數據結構在計算機中的表示(又稱映像),它包括數據元素的機內表示和關系的機內表示。
1.順序存儲方法
順序存儲方法是指把邏輯上相鄰的結點存儲在物理位置相鄰的存儲單元里,結點間的邏輯關系由存儲單元的鄰接關系來體現。順序存儲結構是一種最基本的存儲表示方法,通常借助于程序設計語言中的數組來實現。
2.鏈接存儲方法
鏈接存儲方法是指不要求邏輯上相鄰的結點在物理位置上亦相鄰,結點間的邏輯關系由附加的指針字段來表示。鏈式存儲結構通常借助于程序設計語言中的指針類型來實現。
3.索引存儲方法
索引存儲方法是指除了建立存儲結點信息外,還建立了附加的索引表來標識結點的地址。
4.散列存儲方法
散列存儲方法就是根據結點的關鍵字直接計算出該結點的存儲地址。
(三)其他常用結構
1.數組
在程序設計中,為了處理方便,把具有相同類型的若干變量按有序的形式組織起來,一個數組可以分解為多個數組元素,這些數組元素可以是基本數據類型或是構造類型。因此按數組元素類型的不同,數組又可分為數值數組、字符數組、指針數組、結構數組等各種類別。
2.棧
棧是只能在某一端插入和刪除的特殊線性表。
3.隊列
隊列是一種特殊的線性表,它只允許在表的前端(front)進行刪除操作,而在表的后端(rear)進行插入操作,隊列是按照“先進先出”或“后進后出”的原則組織數據的。隊列中沒有元素時,稱為空隊列。
4.鏈表
鏈表是一種物理存儲單元上非連續、非順序的存儲結構,它既可以表示線性結構,也可以表示非線性結構,數據元素的邏輯順序是通過鏈表中的指針鏈接次序實現的。
5.樹
樹是包含n(n>0)個結點的有窮集合K,且在K中定義了一個關系N,N滿足以下條件:
(1)有且僅有一個結點K0,它對于關系N來說沒有前驅,稱K0為樹的根結點;
(2)除K0外,K中的每個結點,對于關系N來說有且僅有一個前驅;
(3)K中各結點,對關系N來說可以有m個后繼(m≥0)。
6.圖
圖由結點的有窮集合V和邊的集合E組成。其中,為了與樹形結構加以區別,在圖結構中人們常常將結點稱為頂點,邊是頂點的有序偶對,若兩個頂點之間存在一條邊,就表示這兩個頂點具有相鄰關系。
7.堆
在計算機科學中,堆是一種特殊的樹形數據結構,每個結點都有一個值。
8.散列表
若結構中存在關鍵字和K相等的記錄,則其必定在f(K)的存儲位置上,由此,無須比較便可直接取得所查記錄。這個對應關系f就是散列函數(Hash function),按這個思想建立的表為散列表。
四、數據分類
(一)數據分類的定義
數據分類就是把具有某種共同屬性或特征的數據歸并在一起,通過其類別的屬性或特征來對數據進行區別。
換句話說,就是把相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然后確定各個集合之間的關系,從而形成一個有條理的分類系統。
(二)數據分類的原則
1.穩定性
穩定性是指依據分類的目的,選擇分類對象的最穩定的本質特性作為分類的基礎和依據,以確保由此產生的分類結果最穩定。
2.系統性
系統性是指將選定的分類對象的特征(或特性)按其內在規律系統化進行排列,形成一個邏輯層次清晰、結構合理、類目明確的分類體系。
3.可擴充性
可擴充性是指在類目的設置或層級的劃分上,留有適當的余地,以保證分類對象增加時,不會打亂已經建立的分類體系。
4.綜合實用性
綜合實用性是指從實際需求出發,綜合各種因素來確定具體的分類原則,使得由此產生的分類結果總體最優、符合需求、綜合實用和便于操作。
5.兼容性
兼容性是指有相關的國家標準,則應執行國家標準,若沒有相關的國家標準,則執行相關的行業標準;若二者均不存在,則應參照相關的國際標準。
(三)數據分類的方法
數據分類的方法如圖1.3所示。

圖1.3 數據分類的方法
1.按性質分類
(1)定位的,如各種坐標數據。
(2)定性的,反映事物屬性的數據,如居民地、河流、道路等。
(3)定量的,反映事物數量特征的數據,如長度、面積、體積等幾何量或重量、速度等物理量。
(4)定時的,反映事物時間特性的數據,如年、月、日、時、分、秒等。
2.按表現形式分類
(1)數字數據,如各種統計或量測數據。數字數據在某個區間內是離散的值。
(2)模擬數據,由連續函數組成,是指在某個區間連續變化的物理量,又可以分為圖形數據(如點、線、面)、符號數據、文字數據和圖像數據等,如聲音的大小和溫度的變化等。
3.按數字化方式分類
數據按數字化方式分為矢量數據、格網數據等。在地理信息系統中,數據的選擇、類型、數量、采集方法、詳細程度、可信度等,取決于系統應用目標、功能、結構和數據處理、管理與分析的要求。
4.按計量形式分類
(1)定類數據。這是數據的最低層。它將數據按照類別屬性進行分類,各類別之間是平等并列關系。
(2)定序數據。這是數據的中間級別。定序數據不僅可以將數據分成不同的類別,而且各類別之間還可以通過排序來比較優劣。也就是說,定序數據與定類數據最主要的區別是定序數據之間是可以比較順序的。
(3)定距數據。定距數據具有一定單位的實際測量值(如攝氏溫度、考試成績等)。此時不僅可以知道兩個變量之間存在差異,還可以通過加、減法運算準確地計算出各變量之間的實際差距。
(4)定比數據。這是數據的最高等級。它的數據表現形式同定距數據一樣,均為實際的測量值。
5.按來源分類
數據的來源主要有兩種渠道:一種是通過直接的調查獲得的原始數據,一般稱為第一手數據或直接的統計數據;另一種是別人通過調查和搜集,并進行加工和匯總后公布的數據,通常稱之為第二手數據或間接的統計數據。
6.按時間狀況分類
(1)時間序列數據。它是指在不同的時間上搜集到的數據,反映現象隨時間變化的情況。
(2)截面型數據。它是指在相同的或近似的時間點上搜集到的數據,描述現象在某一時刻的變化情況。
五、數據結構算法
(一)數據結構算法的定義
算法是對特定問題求解步驟的描述,在計算機中表現為指令的有限序列。數據結構只是靜態地描述了數據元素之間的關系。高效的程序需要在數據結構的基礎上設計和選擇算法。
(二)數據結構算法的特性
數據結構算法包括以下五大特性:
(1)輸入:算法具有0個或多個輸入;
(2)輸出:算法至少有1個或多個輸出;
(3)有窮性:算法在有限的步驟之后會自動結束而不會無限循環;
(4)確定性:算法中的每一步都有確定的含義,不會出現二義性;
(5)可行性:算法的每一步都是可行的。
(三)算法的準則
1.正確性
算法對于合法數據而言,必須能夠得到滿足要求的結果。算法必須能夠處理非法輸入,并得到合理的結果。對于邊界數據和壓力數據,算法應盡量得到滿足要求的結果,但是其幾乎不能完全做到這點,極端的情況無法滿足。
2.可讀性
算法要方便閱讀、理解和交流。
3.健壯性
算法不應該產生莫名其妙的結果。
4.高性價比
算法要利用最少的時間和資源得到滿足要求的結果。
(四)方法及要求
1.算法設計的基本方法
算法設計的基本方法包括窮舉法、動態規劃、貪心法、回溯法、遞推法、遞歸法、分治法、散列法、分支限界法。
2.算法設計的要求
算法設計的要求有正確性、可讀性、健壯性、效率性與低存儲量需求。
3.算法的基本結構
算法的基本結構是順序結構、循環結構、選擇結構。
案例解析
Given Imaging的圖像診斷
通常,醫生都是在靠自己的專業知識和個人經驗進行病征判斷。現在,如果利用數據分析技術,可以實現成千上萬個醫生同時診斷一位病人嗎?
以色列的Given Imaging公司發明了一種膠囊,患者服用后,膠囊中的內置攝像頭能以大約每秒14張照片的頻率拍攝消化道內的情況,并同時傳回外置的圖像接收器,患者病征通過配套的軟件被錄入數據庫,在4~6小時內膠囊相機將通過人體排泄離開體外?,F實中,會存在醫生對一些疑似陰影拿捏不準甚至延誤病人治療的情況?,F在通過Given Imaging的數據庫,當醫生發現一個可疑的腫瘤時,只要雙擊當前圖像,過去其他醫生拍攝過的類似圖像和他們的診斷結果就都會悉數被提取出來??梢哉f,一個病人不再由一個醫生來診斷,而是成千上萬個醫生在同時給出意見,并由大量其他病人的圖像進行佐證。這樣的數據對比,不但提高了醫生診斷的效率,還提升了準確度。
回顧總結
知識總結:
本節課的知識梳理匯總成流程圖,如圖1.4所示。

圖1.4 本節知識流程圖
思維導圖:
整理本節課所學知識點,補充下方思維導圖(如圖1.5所示),管理你的知識。

圖1.5 本節知識思維導圖
- 張厚粲《現代心理與教育統計學》(第4版)筆記和課后習題(含考研真題)詳解
- 陳傳明《管理學原理》(第2版)配套題庫【名??佳姓骖}+課后習題+章節題庫+模擬試題】
- 2020年湖南公務員錄用考試專項教材數量關系【考點精講+典型題(含歷年真題)詳解】
- 電化學基礎教程(第二版)
- 畢寶德《土地經濟學》(第5版)筆記和典型題詳解
- George Yule《語言研究》(第4版)課后習題詳解
- 周勝林《當代新聞寫作》(第2版)筆記和典型題詳解
- 北京服裝產業發展研究報告(品牌篇)
- 品牌戰略
- 土地關系與農村社會
- 首都師范大學870發展心理學[專業碩士]歷年考研真題及詳解
- 統計質量評價理論基礎
- 市場預測與決策
- 2019年青海省選聘高校畢業生到村任職考試《行政職業能力測驗》考點精講及典型題(含歷年真題)詳解
- 建筑工程BIM算量通用流程與實例教程