- 統計學基礎(第2版)
- 劉澤主編
- 7507字
- 2021-01-06 18:36:22
知識鏈接
1.1 統計的內涵
“統計”一詞有三種含義:統計學、統計工作和統計資料。統計學是一系列統計方法的理論闡述;統計工作是統計的具體實踐活動;統計資料是統計工作各階段的成果,也可稱為統計數據。
1.1.1 統計學
統計學是關于收集、整理、分析和解釋統計數據的科學,是一門方法論性質的學科,其目的是探索研究對象的數量特征和數據的內在規律性。
統計學的這一定義包含了如下3個要點。
(1)統計學是研究“數據”的科學,離開了數據,統計學也就失去了它存在的意義,因此有人稱統計學是“數據的科學”。
(2)統計學是方法論科學,是研究數據的“工具”,因此它適用于所有有數據存在的學科領域。
(3)統計學研究的不是抽象的數據,而是“有載體的統計數據”,因此利用統計方法得到的任何數據特征和數據規律都與某一研究對象緊密相連。
統計學的研究對象是現象總體的數量方面。統計通過對總體中大量個體的差異化數據進行收集、整理和分析,獲得研究對象總體的特征和規律性。
英文“Statistics”一詞包含了兩層含義,一是作為一門學科的統計學;二是表示統計數據或統計資料,說明了統計學與統計數據之間密不可分的關系。
1.1.2 統計工作過程
一般將統計工作概括地分為4個階段,即統計設計、數據收集、數據整理和數據分析,如圖1-1所示。

圖1-1 統計工作過程
1. 統計設計
統計設計是根據統計研究的目的和研究對象的特點,對統計工作各個方面及各個環節所做的通盤考慮與安排。其基本任務是制定出各種統計工作方案,主要內容應包括統計指標體系、統計調查方案、統計匯總或整理方案以及統計分析方案等諸多方面。統計設計是統計工作實施的基本依據,是使統計工作協調、有序、順利進行的必要條件。
2. 數據收集
數據收集是根據統計設計的要求,采用科學的數據收集方法,收集總體中全部或部分個體數據資料的工作過程。數據收集是統計工作的基礎環節,是認識事物的起點。原始數據質量的高低,直接影響到分析結論的可靠性。因此,數據收集階段應盡可能地降低統計調查誤差。
3. 數據整理
數據整理是對收集來的統計數據進行科學的加工整理,使之系統化、條理化,把大量的反映個體特征的零散資料轉化為反映總體綜合數量特征的統計資料的過程。數據整理是數據收集和數據分析之間承上啟下的中間環節,其主要任務是對收集到的數據進行分組、歸類,并用合適的統計表或統計圖展示整理的結果。
4. 數據分析
數據分析是運用統計方法及與分析對象有關的知識,從定量與定性的結合上對研究對象總體進行分析,以揭示研究對象數量特征和數量規律的統計工作階段。數據分析是統計工作的最后一環,也是關鍵的一步。統計分析報告是統計分析的產品,統計分析報告的質量既取決于數據本身的質量,又有賴于對統計數據分析利用的程度。
一般來說,統計工作的4個階段是依次進行的,任何一個階段的工作失誤都會影響到下一階段的工作質量。但在某些情況下,為保證統計工作整體上取得好的效果,各階段也會交叉進行。例如,在數據收集和整理階段可以進行一些必要的分析,或者對原設計方案進行適當的改進;在數據分析階段,如果現有資料不能滿足分析的需要,可以做一些必要的補充調查、數據整理等工作。
1.1.3 統計數據
統計數據是對現象進行計量和分析的結果,是研究對象的特征表現。對個體而言,其特征既可以用數字表示也可以用文字表示;對總體而言,其特征都是用數字表示的。
一個完整的統計數據,應包括3個最基本的構成要素:數據名稱、數值和數據的計量單位。但在具體表述一個統計數據時,很多時候只有這3個要素是不夠的,還應包含對數據其他方面的內涵規定,如數據所屬的時間和空間范圍等。
例如,“工業機器人7 485(臺/套)”傳遞的信息是不完整的,如果改為“2016年11月,我國規模以上工業企業生產的工業機器人有7 485(臺/套)”,數據的內外邊界就很清楚了。
統計數據從不同的角度有不同的分類,通常可以從以下3個角度分類,如圖1-2所示。

圖1-2 統計數據的分類
1. 按計量尺度分類
按計量尺度不同,可以將統計數據分為分類數據、順序數據和數值型數據。
(1)分類數據,用文字來表述,表明事物的不同屬性或類別。在統計處理時,我們用數字代碼來表示分類數據的各個類別。例如,用“1”代表“男性”,用“2”代表“女性”,這里的“1”和“2”只表達了現象分屬于兩個類別這樣一層含義。再如,企業所屬的不同行業、企業的不同所有制類型、不同職業等都屬于分類數據。
(2)順序數據,用文字來表述,表明有順序的不同類別。在統計處理時,我們同樣可以用數字代碼來表示。例如,用“1”“2”“3”“4”“5”分別代表考試成績的“不及格”“及格”“中”“良”“優”,這里的1、2、3、4、5不僅表明現象分屬于不同的類別,而且表明這些類別的順序。再如,不同的教育程度、產品的不同等級等均屬于順序數據。
(3)數值型數據,用數字來表現各種現象的數量特征,是使用自然或度量衡單位對事物進行計量的結果。一個企業的職工人數、產值、銷售收入、市場占有率等指標都是用具體的數字來表示的。數值型數據不僅能表明現象數量上的不同和大小順序,還能在數據之間進行數量運算,大部分統計分析方法適用于數值型數據的分析,統計處理的大多是數值型數據。
分類數據和順序數據也統稱為品質數據或定性數據,數值型數據也稱為數量數據或定量數據。
2. 按數據來源分類
按來源不同,可將統計數據分為觀測數據和實驗數據。
(1)觀測數據是指通過直接調查或觀察收集到的數據。社會經濟領域的統計數據基本上是觀測數據。
(2)實驗數據是通過對實驗對象、實驗環境以及實驗過程的有效控制而獲得的統計數據。這些數據主要用于考察變量之間的因果關系。
3. 按與時間的關系分類
按與時間的關系不同,可將統計數據分為截面數據、時間序列數據和面板數據。
(1)截面數據是指某一總體中不同個體在相同或近似相同的時間上的數據表現。
(2)時間序列數據是指將不同時間上某一指標值列出所形成的按時間順序排列的數據序列。
(3)面板數據是指總體中不同個體在不同時間上的數據表現,是時間序列數據與截面數據的結合。
1.2 統計的職能
統計的職能可以概括為信息職能、咨詢職能和監督職能,如圖1-3所示。
1. 信息職能
信息職能指的是統計提供信息服務的功能,通過采集、處理、傳遞、存儲和分析數據,提供以數量描述為基本特征的社會經濟信息。
2. 咨詢職能
咨詢職能指的是統計提供咨詢建議和對策方案的服務功能,利用已經掌握的豐富的統計信息資料,運用科學的統計分析方法和先進的技術手段,開展綜合分析和專題分析,為科學決策和科學管理提供可選擇的咨詢建議和決策方案。

圖1-3 統計的職能
3. 監督職能
監督職能指的是統計揭示事物運行中的偏差,促使事物運行不偏離正常軌道的功能。統計以定量檢查、監測、預警指標體系等為手段,揭示決策及其執行過程中的偏差,使決策及其執行過程按客觀規律的要求進行。
信息職能是統計最基本的職能,是保證咨詢和監督職能得以有效發揮的前提,反過來統計咨詢職能和統計監督職能的強化又會促進統計信息職能的強化。統計的3種功能相輔相成,相互作用,構成了一個有機整體,故又稱為統計的整體功能。
統計方法已應用到人類生活的各個領域。尤其是生活在21世紀的人們,將與數據朝夕相處,收集相關數據,從數據中提取信息,進行預測與決策,將是個人、企業、政府經常面對的事情。在科研領域,統計方法已應用到幾乎所有的研究領域,有些學科廣泛地應用統計方法使得其擁有各自的統計術語,如生物統計、醫學統計、衛生統計、商務統計、經濟統計學、統計物理學、人口統計、心理統計學、教育統計學、社會統計、體育統計學等。
統計在工商業領域扮演著一個重要的角色。一個工商管理人員會經常面臨大量企業經濟管理方面的數據,而這些數據只有被分析、提煉才能成為管理人員進行管理和決策的依據。
圖1-4簡要表述了當我們遇到一個具體問題時,借助于統計工具解決問題的思維過程。

圖1-4 應用統計的思維過程
我們在討論統計所具有的職能、統計應用的廣泛性及統計對決策的重要性時,還應看到統計有所為也有所不為。統計可以幫助人們分析數據,并通過分析得出某種結論,但對統計結論的進一步解釋,則需要相關領域的專業知識。

視頻1-1 統計的源流

視頻1-2 統計與生活
1.3 統計學的研究方法
統計學從17世紀產生發展到今天,其應用領域越來越廣泛,其方法越來越豐富。統計學的研究方法可以簡單地劃分為兩大類:描述性統計方法和推斷性統計方法。
傳統統計學以描述統計為主,主要包括數據的收集、整理、圖表顯示和數據的綜合測度等內容,描述統計是統計學的基礎和統計工作的初步。
現代統計學產生于20世紀初,以推斷統計為主,其方法包括抽樣理論、參數估計、假設檢驗、方差分析、統計決策理論、非參數統計、現代時間序列分析、多變量分析等,推斷統計是現代統計學的核心。現代統計學體現了對數學方法的廣泛吸收和應用,現代統計方法的應用也提高了數據分析的效率和數據挖掘的深度。
在統計工作的不同階段應用著不同的統計方法。在數據收集階段,要體現統計的“大量觀察法”,具體應用時還有不同的調查方式與方法可供選擇;在數據整理階段,主要應用“統計分組法”,通過分組、歸類了解數據的內部結構,并通過合適的圖、表展示數據;在數據分析階段,根據分析問題的角度和深度不同,又有大量的統計分析方法可供選擇。隨著對更多數學方法的吸收和先進信息技術的不斷滲透,更有效的統計分析方法還在不斷產生。
本書將按照統計工作的不同階段,分別介紹數據收集的方式與方法(任務二 數據收集)、數據整理與數據顯示方法(任務三 數據整理與顯示)和數據分析(任務四至任務八)的一系列方法。
任何統計方法的有效性都取決于研究對象是否滿足方法的適用條件或基本假設,誤用統計學的方法可能會導致描述上的偏離或者推論的錯誤,而這個錯誤又可能導致決策的失誤。因此,作為統計方法的使用者應正確使用統計方法,避免誤用。
1.4 統計學中的基本概念
1.4.1 總體、樣本與個體
總體是客觀存在的、性質相同的大量個體組成的整體,是由統計研究目的決定的統計研究對象的全體。個體是組成總體的個別單位。例如,要研究某地區國有企業的生產經營狀況,則該地區全部國有企業構成總體,某個國有企業就是個體;某企業要檢查某批產品的質量,該批所有產品構成總體,某件產品就是個體。
樣本是從總體中抽取出來的一部分個體組成的整體。抽樣的目的是用樣本的數據特征推斷總體的數據特征。例如,研究顧客的滿意度,從該產品的用戶中隨機抽取5%構成樣本,用這部分顧客的滿意度對該產品用戶的滿意度進行估計。總體、樣本與個體的關系如圖1-5所示。

圖1-5 總體、樣本和個體
1.4.2 參數與統計量
參數是描述總體綜合數量特征的概括性數字度量,是對總體中所有個體某一數量特征的綜合。
統計量是描述樣本綜合數量特征的概括性數字度量,是對樣本中所有個體某一數量特征的綜合,計算樣本統計量是為了估計總體參數。
不管是總體參數還是樣本統計量,體現的都是對個體數量特征的綜合,都用數字表示。例如,隨機抽取5%的用戶進行滿意度調查,5%用戶的滿意度得分是82分,這就是統計量;據此推算出全部用戶的滿意度得分為79~85分,這就是參數。
習慣上,也將總體的綜合數量特征稱為統計指標。
1.4.3 變量
變量是描述個體特征的概念,變量的具體取值稱為變量值。習慣上,也將反映個體特征的變量稱為標志。
1. 按變量的表現形式分類
變量按其表現形式的不同可分為品質變量和數值型變量。
(1)品質變量用文字表示,包括分類變量和順序變量。分類變量是說明事物類別的一個名稱,其取值是分類數據。例如,企業的“行業”屬性是分類變量,其變量值表現為“IT業”“物流業”“旅游業”等不同類別的行業;順序變量也是說明事物有序類別的一個名稱,其取值是順序數據。如“服務等級”是順序變量,其變量值表現為“優”“良”“中”“差”4個順序等級。
(2)數值型變量是說明事物數字特征的一個名稱,其取值是數值型數據。例如,企業的“營業額”是數值型變量,其變量值為具體的數值,如“20萬元”“30萬元”“40萬元”等。
以商場的會員卡為例,每個會員的個體信息就是變量,如某會員的性別是一個分類變量,教育程度是一個順序變量,購買金額是一個數值型變量。
2. 按變量的取值不同分類
數值型變量根據變量的取值不同,分為離散型變量和連續型變量。
(1)離散型變量是只能取整數值的變量,一般用來反映以自然整數計量的數量表現,變量值之間以整數位斷開。例如,企業從業人數1 000人,只用整數來計量,在999和1 000兩個整數之間不可能有小數值。
(2)連續型變量是可以在一個或多個區間中取任何值的變量,其取值是連續不斷的,不能一一列舉。例如,銷售收入20萬元,以貨幣單位計量,在順序的兩個“萬元”之間可以有小數值,表示比萬元更小的計量單位上的取值。
1.5 統計應用軟件簡介
從古人在樹木上刻痕以計算家畜和財產的數量,到今天通過計算機和軟件來收集、儲存、分析數據,人類處理和分析數據的速度和規模已發生了革命性的變化。人類正行駛在以數據為載體的信息高速公路上,在人們的日常生活、政府行政事務管理、企業生產經營管理、科學研究等各個領域,手工計算已被計算器、計算機所取代,數據分析軟件幫助人們快速、高效地完成數據分析任務。
在統計教學中,統計學中的眾多公式、符號及數字,令很多人望而生畏、感到枯燥乏味;同時,數據量較大、較為復雜的運算,手工也難以勝任。近年來,借助于計算機和數據處理軟件,統計教學和統計學習變得更高效。
目前,可以用于統計數據處理和分析的軟件很多。辦公自動化軟件Excel就包含強大的數據處理功能,其應用非常普遍。專業的統計軟件有SPSS、SAS、Minitab、Statistica、Eviews等。本書的適用對象是非統計專業的學生,也不涉及很復雜高深的模型與運算,因此選擇具有較高普及率的Excel軟件作為統計入門學習和掌握常用數據處理方法的工具,本書將使用Excel的最新版本Excel 2016來進行講解。
Excel具有強大的表格格式化功能、計算和函數功能、圖表制作功能等,可以利用Excel的相應命令來制作電子表格、圖表(見圖1-6),進行數據的分類匯總(見圖1-7),利用統計函數或相應的數據分析工具完成數據的運算或分析等(見圖1-8~圖1-10)。Excel具有功能強大和使用方便的特點,廣泛應用于會計、財務、金融、營銷、貿易、統計、行政等領域,是比較適合非統計專業的經濟管理人員使用的應用統計軟件。
本書有關運算的任務實施都借助于Excel來完成,很少涉及手工計算,相應的公式推導、手工計算簡捷公式全部省略,讀者可將注意力放在統計方法的基本原理、Excel的操作步驟和統計結果的解讀上。

圖1-6 插入圖表

圖1-7 數據的分類匯總

圖1-8 插入函數

圖1-9 工具菜單中的數據分析

圖1-10 Excel中的數據分析工具
1.6 案例——女排奪冠背后的“數據分析之道”
在2016年8月的里約奧運會上,中國女排繼2004年拿到雅典奧運會冠軍后,時隔12年再次獲得奧運會冠軍!這一刻,女排姑娘們又創造奇跡!“女排精神”再次感動中國!郎平“執教有方、訓練有道、指揮有謀”,被稱為“女神”!
當我們見證體壇明星們創造奇跡的時候,是否想過在他們的背后還有一個科研團隊在用科技的力量幫助這些天才走向成功?現代賽場上,主教練在指揮時單憑個人記憶和歷史經驗做決策已經不夠了,經常要用到實時比賽數據分析作為參考,重大體育比賽項目配備專業的數據分析團隊已經是標準配置了。2010年,國家排球隊重金引進了一套技戰術統計軟件,里約奧運會上,女排的數據分析師袁靈犀就是運用這套軟件,通過臨場的數據分析告訴教練組最佳的應對策略。
比賽后的數據分析是事后諸葛亮,僅供參考,比賽進程中的趨勢分析是及時數據,用來作為是否進行調整的依據。開賽前半小時,袁靈犀在指定的“技術區域”,架上攝像機,接好筆記本電腦,再連上打印機,為比賽的數據采集做好準備。比賽過程中,袁靈犀需要在一瞬間判斷球員打了什么戰術,還要判斷她打到了哪個區域,然后馬上輸入,軟件就會自動畫出扣球線路。每場排球比賽,現場輸入技術數據至少有1 000條,包括每個隊員的發球集、二傳傳球位置分析、重點球員在不同戰術中扣球和吊球的習慣線路。必須詳細記錄每一分的來歷,用于備賽和協助現場指揮。還要記錄我方和對手每一名隊員的扣球路線、扣球區域概率、助攻區位、調整攻區位等,軟件依靠收集的數據生成分析圖。借助于數據分析軟件,可以對各種扣球線路數據了如指掌,教練可以根據這個數據來安排換人,改變下一局的輪次打法。
目前,借助于該軟件可以進行排球軌跡獲取和智能分析、排球扣球動作生物力學分析、運動員彈跳力和下肢運動關聯分析、跳發球技術和移動步法數據分析、運動員體能衰減數據分析、得失分影響因子分析、運動員之間的關聯關系分析、運動員和后備隊員功能特征等分析。袁靈犀作為中國女排數據分析師,不僅懂排球業務,懂各種排球打法,還要懂數據分析,懂外語,懂電腦。畢竟,不懂業務就沒法讓數據分析軟件發揮最大功效。

視頻1-3 帶你認識統計員家族
1.7 習題與實訓
一、選擇題
1. 利用統計方法認識研究對象包括的統計活動有()。
A. 解釋數據
B. 收集數據
C. 分析數據
D. 整理數據
2. 屬于某一有序類別的非數值型數據是()。
A. 支付方式(現金、支票、刷卡)
B. 購物金額
C. 企業規模(大、中、小)
D. 年齡
3. 一個統計數據的構成要素有()。
A. 名稱
B. 數值
C. 時間范圍
D. 計量單位
4. 在不同時間上收集到的數據是()。
A. 觀測數據
B. 實驗數據
C. 截面數據
D. 時間序列數據
5. 描述總體的特征值稱為()。
A. 統計量
B. 變量
C. 參數
D. 變量值
6. 下列屬于離散型變量的是()。
A. 某企業職工總人數
B. 城鄉居民儲蓄存款余額
C. 職工的月收入
D. 全國城鎮居民家庭總戶數
二、思考題
1. 什么是統計學?舉出幾個統計應用的例子。
2. 簡述統計工作的流程。
3. 統計數據可分為哪幾種類型?舉例說明各類數據的特點。
三、綜合應用題
1. 判斷下列數據屬于分類數據、順序數據還是數值型數據:品牌、職業、產品的滿意度(滿意、較滿意、一般、不太滿意、不滿意)、考試成績、市場占有率、流動資金占用額、學歷、購物方式、月收入。
2. 某市的城市抽樣調查隊隨機抽取了1000戶居民作為固定樣本,記錄其每月的消費支出情況,連續記錄了12個月,并對這100戶居民12個月的每月消費總額及消費構成進行了匯總和分析,以此估計該市居民的消費支出情況。
(1)指出該調查的總體、樣本、個體;參數、統計量、變量。
(2)某戶居民每月支出額是分類變量、順序變量還是數值型變量?
(3)某戶居民每月食品支出額是離散型變量還是連續型變量?
(4)某月1 000戶居民的支出額和12個月1 000戶居民的平均支出額,哪個是時間序列數據?哪個是截面數據?
(5)上述數據是觀測數據還是實驗數據?
3. 某校組織了一次學生消費水平的調查。該校共有在校生5 000人,隨機調查了800人。
(1)指出該項調查的總體、總體單位、樣本、樣本單位。
(2)針對該項調查,設計調查內容,并舉例說明什么是變量、統計量、參數,什么是離散型變量和連續型變量。