- 統計學實務(第5版)
- 梁俊平
- 5770字
- 2020-06-19 14:10:26
3.1 數據分組
3.1.1 統計分組
統計分組是根據統計研究的目的和任務,按照一定的標志將統計總體劃分為若干個組成部分的一種統計方法。
例如,社會經濟結構可按產業發生的時序,劃分為第一產業、第二產業和第三產業;全國人口按性別可分為男性人口和女性人口。
通過統計分組,能夠達到組間差別性、組內同質性的分組效果。統計分組實際上就是在統計總體內進行的一種定性分類,它能夠將一個較大范圍的同質總體劃分為若干個性質不同的、范圍較小的同質總體(組)。
3.1.1.1 統計分組的要求
根據統計分組的定義可知,統計分組有三個要素:母項,需劃分的總體;子項,劃分以后的類(組)總體;分組標志,進行統計分組的標準和依據。
進行統計分組,在技術上有三個基本要求:周延性、互斥性、分組標志的同一性。遵守以上要求,就能達到組內同質性、組間差別性的分組效果,反之,就可能出現分組上的混淆和矛盾,這是統計分組中必須注意的事項。
周延性:要求分組以后各子項項數之和應等于母項項數。
互斥性:組與組之間內容和數值要相互排斥,不能重合。
分組標志的同一性:每次分組只能以一個標志為劃分依據,不能同時采納兩個或兩個以上的標志為劃分依據。
3.1.1.2 統計分組的種類
統計分組可以按照不同的標志進行分類。分組的標志是劃分資料的標準和依據,分組的標志選擇是否得當,關系到能否正確地反映總體數量特征及其變化規律。統計分組主要有如下幾種。
1.按分組標志的多少,可分為簡單分組和復合分組
(1)簡單分組與平行分組體系。
簡單分組就是對研究現象按一個標志進行分組,它只能從某一方面說明和反映事物的分布狀況和內部結構。
例如,為了了解企業職工基本情況,可以選擇年齡、工齡、文化程度等標志進行簡單分組。
對同一總體選擇兩個或兩個以上的標志分別進行簡單分組,就形成平行分組體系。
例如,為了深入了解我國固定資產構成的基本情況,可以按照經濟領域、物質生產部門、經濟類型、經濟用途、使用情況及所有權進行分組,這六個簡單分組相互聯系、相互補充便構成平行分組體系。
(2)復合分組與復合分組體系。
復合分組是指許多場合要用兩個或兩個以上標志分組,即先按第一個標志分組,在此基礎上再按第二個標志分小組,又再層疊地按第三個標志分成更小的組。
兩個或兩個以上復合分組可以形成復合分組體系。
例如,固定資產投資項目,先按經濟類型分組,再按投資規模分組,形成復合分組。
復合分組和復合分組體系將多個標志層疊起來分組,能全面深入地說明問題。但當分組標志數目較多時,復合分組的組數將隨分組標志的增加而成倍地增加,反而不易揭示出問題的實質。一般不宜采用太多的標志進行復合分組。
2.按分組標志的性質不同,分為品質分組(或稱屬性分組)和數量分組(或稱變量分組)
品質分組就是按品質標志進行分組。一般來說,對于類別數據,采用品質分組。
數量分組就是按數量標志分組,數量標志的變異性體現在它不斷變動自身的數量上,故也稱為變量分組。
例如,職工按性別分組,企業按經濟類型分組等就是品質分組。企業按產值、工人數分組就是數量分組。
3.按分組的作用不同,分為類型分組、結構分組和分析分組
類型分組是指把復雜的現象總體,劃分為若干個不同性質的部分。
結構分組是指在對總體分組的基礎上計算出各組對總體的比重,借此研究總體各部分的結構。
分析分組是指為研究現象之間依存關系而進行的統計分組。
分析分組的分組標志稱為原因標志,與原因標志相對應的標志稱為結果標志。原因標志不同,結果標志也會不同;同一原因標志由于分組不同,結果標志也會不同。例如,工人的勞動生產率與產值之間、商品流通費用率與商品銷售額之間的依存關系,都可以按分析分組法進行研究,如表3-1所示。
表3-1 某地區部分商店按商品銷售額分組的商品流通費用率

從表中可看出,隨著商品銷售規模的擴大,其商品流通費用率相應降低,兩者表現出負依存關系。
3.1.1.3 統計分組的方法
統計分組的關鍵在于選擇分組標志和確定各組的界限。
1.正確選擇分組標志
統計分組的核心問題就是如何正確地選擇分組標志,這關系到能否確切地反映總體的特征,體現分組的科學性,實現統計研究的任務。因此,為了正確地選擇分組標志,必須注意以下幾點。
(1)應選擇與統計研究任務密切相關的、最為符合統計研究目的的標志作為分組標志。同一研究對象研究目的不同,采用的分組標志也就不同。例如,為了研究某地區各類不同規模工業企業的生產經營狀況時,可選擇職工或生產能力作為分組標志。研究目的在于確定該地區各種經濟類型的工業企業在整個工業部門中所占的比重時,可選擇經濟類型作為分組標志。
(2)在總體若干個可供選擇的標志中,要選擇最能反映事物本質特征的標志作為分組標志。例如,研究居民的生活水平狀況,可按城鄉居民或不同收入的居民分組,也可按居民的職業分組,還可以按腦力勞動者與體力勞動者分組等。在這些標志中,要注意選擇主要的、起決定性的、能反映事物本質特征的標志作為分組標志。如上述城鄉分組和職業分組都是重要的分組。
(3)要結合現象所處的具體歷史條件和經濟條件動態地選擇分組標志。例如,企業按規模分組,而反映企業規模的標志很多,如職工人數、產品產量、產值、生產能力、固定資產價值等。選擇哪個作為分組標志,則必須結合企業所處的具體條件確定。在勞動密集型或技術不發達的條件下,宜選擇職工人數作為分組標志;在技術密集型或技術裝備比較先進的條件下,宜采用生產能力或固定資產價值作為分組標志,這樣才能確切地反映現象的本質特征。
注意:同一個分組標志適合某一時間、地點、條件下的某現象,但不一定適合另一時間、地點、條件下的該現象。因此,分組標志不能固定不變,即使研究同類現象,也要視具體時間、地點、條件的不同,動態地加以選擇,這樣選擇的分組標志才具有現實意義。
2.正確確定各組的界限
分組標志確定后,就可以進一步在分組標志的變異范圍內,具體劃分各組的界限。分組標志按其形式,可分為品質標志和數量標志。統計總體可按品質標志分組,也可按數量標志分組。
3.1.2 統計數據的整理程序
統計整理是統計研究過程中一個十分重要的中間環節,起著承前啟后的作用。通過整理,可以將說明個體的、局部情況的原始資料轉化為反映總體的、全局情況的綜合資料,是統計分析之前的必要步驟。統計數據的整理主要分為以下幾個程序。
1.根據研究目的設計整理匯總方案
統計匯總方案的設計包括兩方面:一是對于總體的處理方法,即對總體進行各種分組,達到對總體具體而深刻的了解,便于以后的分析研究。因此,匯總方案要確定統計分組與分組體系。二是確定用哪些統計指標來說明總體,即根據研究目的,設計一套匯總表,用以對調查項目進行匯總。
2.匯總前對統計數據資料的審核
在對統計數據整理之前,必須對原始數據進行嚴格的審核,主要檢查數據的完整性與準確性,檢查方法有邏輯性檢查和計算檢查。邏輯性檢查,比如,性別為“女”的人所填的與戶主的關系是兒子,對于這種違背邏輯的項目應予以糾正。計算檢查,例如,各分項數據之和是否等于相應的合計數,各結構比例之和是否等于1或100%,出現在不同表格上的同一指標數值是否相同,等等。
3.對數據資料的分組與匯總
按照一定的組織形式和方法,根據調查資料的性質與特點,劃分為若干組并加總,計算出各組的單位數和合計數,計算出各組指標和綜合指標的數值。分組和匯總是統計數據整理的中心工作。
4.編制統計表、繪制統計圖
將整理結果用統計表和統計圖的形式反映出來,它可清晰地、簡明扼要地表述統計資料的內容。
5.統計資料的積累和保管
加工整理后的統計資料必須妥善保管,不得損壞和遺失。對已過時的統計資料,如認為確無保管價值,呈請單位主管領導核準,并經統計員會簽后,方可銷毀。
3.1.3 次數分布與變量數列編制
1.次數分布
在按某一標志進行統計分組的基礎上,將總體的所有單位按組歸類排列,形成總體中各單位在各組間的分布,稱為次數分布或頻數分布、分布數列。
它是統計整理的一種重要形式,可用以研究總體各組分布狀況、分布特征及總體的構成狀況,還是進一步分析總體集中趨勢和離散程度的基礎資料。因此,編制分布數列,不僅是反映統計整理結果的需要,也是進行統計分析的需要。其一般形式如表3-2所示。
表3-2 次數分布的一般形式

根據分組特征的不同,分布數列可分為品質分布數列和變量分布數列兩種。
(1)品質分布數列。
品質分布數列是指按品質標志分組所形成的分布數列,簡稱品質數列。
例如,根據我國第五次人口普查資料,大陸人口按性別標志分組,可編成品質數列,如表3-3所示。
表3-3 第五次人口普查大陸人口的性別分布

品質數列屬定類測定資料,如果分組標志選擇得好、分組標準定得恰當,則事物的差異表現得就比較明確,總體各組劃分就容易解決。品質分布數列一般比較穩定,通常均能準確地反映總體分布特征。
(2)變量分布數列。
變量分布數列是指按數量標志分組形成的分布數列,簡稱變量數列。
例如,我國大陸人口按年齡分組可編制如下變量數列,如表3-4所示。
表3-4 第六次人口普查大陸人口年齡分布

在表中,第1列是變量x;第2列是各組單位數出現的次數f,即頻數,各組頻數之和等于總體單位數;第3列是頻率,是各組頻數與總體單位總和之比,各組頻率之和為1。

變量數列按照用來分組的變量的表現形式,可以分為組距式變量數列和單項式變量數列兩種。
●組距式變量數列是指按一定的變化范圍或距離進行分組的變量數列,又稱組距數列。
●單項式變量數列是指數列中每個組的變量值都只有一個,即一個變量值就代表一組,如表3-5所示。
表3-5 某大學學生年看電影次數情況

在組距式變量數列中,每組的最大變量值稱為該組的上限,最小變量值稱為該組的下限。上限與下限之間的距離或差數就是該組的組距,即組距=上限-下限。組距變量數列又有等距數列和不等距數列之分。各組組距都相等,稱為等距數列;各組組距大小不等,則稱為不等距(或異距)數列。
2.變量數列的編制
(1)整理原始資料。
變量數列的分組是按數量大小作為分組標準的。這樣,就必須先對原始資料按從小到大的順序排列,確定最大值和最小值,并計算全距。
例:江蘇某外資企業2017年第一季度50名工人月平均收入資料如下(單位:美元):

上述資料比較零亂,不易直接看出其基本特征,若將這些數據按由大到小的順序排列(豎排列),可得到如下陣列:

它反映出資料的某些特征:首先,說明月收入的波動幅度較大,其全距為900美元。其次,說明多數工人的月收入在1000~1400美元。通過整理,可以對該資料的某些特征和基本狀況有一個初步了解。
(2)確定變量數列的形式。
對于離散型變量,因其所描述對象的數量特征,可以按一定的順序一一列舉數值,相鄰兩個變量之間不可能有小數。例如,高校的學生人數、機器臺數、廢品件數等。所以,對于這些變量,如果項數不多、變異幅度不大,可編制單項式變量數列;否則,應編制組距式變量數列。
對于連續型變量,因其所描述對象的數量特征,在一個區間內可以有無限多個數值,無法按一定次序一一列舉,其變量值可以用小數表示。例如,糧食的畝產量、職工工資等。所以連續型變量不能編制單項式變量數列,只能編制組距式變量數列。
(3)編制組距式變量數列應注意的問題。
1)確定組距。組距的大小要適度,要能正確地反映總體的分布特征及其規律。組距與組數成反比例關系,組距越大,組數就越少;組距越小,組數就越多(組數=全距÷組距)。組數過少,容易把不同質的單位歸在一個組內;組數過多,又容易把同質的單位分散在不同的組內,兩者都不符合分組的要求。至于是采用等距分組還是采用不等距分組,要根據現象的特點、統計研究的目的及所收集的資料分布是否均勻來確定。如果資料分布比較均勻,就可采用等距分組,否則應采用不等距分組。如上面所舉工人月工資一例,宜編制等距數列。等距數列的組數、組距可以采用下列公式計算。
K=1+3.322lgn
i=R / K
式中,K是組數;i是組距;R是全距;n是數據個數。
2)確定組限。上限和下限統稱為組限。確定組限的基本原則:按這樣的組限分組后,要能使性質相同的單位歸入同一組內,使不同性質的單位按不同的組別劃分。
對于離散型變量,其變量值都是整數,變量值之間有明顯的界限,因而,組的上下限可用肯定性的數值表示,組限非常清楚。例如,工人按職工人數分組,其組限可表示為:
100人以下
100~499人
500~999人
1000人以上
對于連續型變量,其變量值有小數,組限不能用肯定的數值表示,只能用前一組的上限與后一組的下限重疊的方法表示。例如,工廠按職工工資分組,可以表示如下:
900美元以下
900~1100美元
1100~1300美元
1300~1500美元
1500美元以上
一般原則是把達到上限值的單位劃入下一組內。例如,當工資為1100美元時,該單位應屬第三組而不是第二組。
在上述組限的表示方法中,數列的首末兩組用“××以下”和“××以上”表示的叫開口組,首末兩組上下限俱全的叫閉口組。在分組時是采用開口組還是閉口組,要根據現象的實際情況而定。
3)組中值的確定。組中值是上限和下限之間的中點數值,它是代表各組標志值平均水平的數值。計算組中值的公式:
組中值=(上限+下限)/2
開口組的組距和組中值的確定,一般以其鄰近組的組距為準,其計算公式:
缺下限開口組的組中值=上限-(鄰組組距/2)
缺上限開口組的組中值=下限+(鄰組組距/2)
(4)頻數分布表的具體編制。
如前所舉,該企業工人月平均收入的全距為900美元,組距=全距÷組數=900÷5=180(美元),可近似取200美元。這里,組數取5組是根據研究的目的而定的。第1組為900美元以下,表示最低收入;第2組為900~1100美元,表示較低收入;第3組為1100~1300美元,表示收入為中等;第4組為1300~1500美元,表示收入較高;第5組為1500美元以上,表示收入高者,如表3-6所示。
表3-6 50名工人月平均收入頻數分布

有時為了研究次數分布的狀況,因計算分析的需要,常需要計算累計次數或累計頻率。計算累計次數或累計頻率的方法有兩種:一種是向上累計,如表3-6中,第三組的向上累計次數和累計頻率分別為36人和72%,表示月平均收入低于1300美元的工人有36人,占全部工人的72%。另一種是向下累計,如表3-6中第二組的向下累計次數和累計頻率分別為14人和28%,表示月平均收入高于1300美元的工人有14人,占全部工人的28%。
通過對總體各單位分組而形成的變量數列,顯示了各單位標志值在各組間的分布狀況,從而使雜亂無章的原始數據顯示出一定的規律性,從表中可看出,月平均收入在1100~1500美元的工人占全部工人的66%,而較低收入和高收入的工人所占比重較小,表現出近似“兩頭小,中間大”的分布特征。