§2.2 統計數據的整理
§2.2.1 統計分組
(1)統計分組的概念
統計分組是根據統計研究的目的和要求,將總體中的所有單位按照一定的標志分為若干部分或組別的方法。統計分組對總體而言是“分”,即將總體中具有不同性質的單位分開;對個體而言又是“合”,即將總體中具有相同性質的單位歸入同一組中??傮w分組后,突出了組與組之間的差異,而抽象了組內各單位的差異。
(2)統計分組的作用
統計分組的作用主要表現在三個方面:第一,區分總體的類型?,F象的類型多種多樣,不同類型的現象存在本質差別,通過對統計數據的分組,就可以把不同類型的現象區別開來以便進行比較、分析。第二,反映現象內部結構和比例關系。通過分組,總體被劃分為若干組成部分,計算各組成部分在總體中的比重和各部分之間的比例關系,可以反映總體的構成特征和基本性質。第三,揭示現象之間的相互依存關系。現象之間總是相互聯系、相互依存、相互制約的,在分組基礎上計算有關指標,可以觀察這些現象之間的內在聯系和數量關系。
為了充分發揮統計分組的作用,要注意分組原則的科學性、分組的完備性和互斥性??茖W性是指統計分組要從統計研究的目的出發,正確地選擇分組標志和劃分各組界限。完備性是指分組時任何一個總體單位或原始數據都能歸屬于某一個組,而不會遺漏在外?;コ庑砸喾Q不相容性,指任何一個總體單位或任何一個原始數據,在一種統計分組中只能歸屬于某一個組,而不能歸屬于兩個或兩個以上的組。
§2.2.2 次數分布數列
(1)次數分布數列的概念
將總體各單位按某個標志分成若干組,列出各組的總體單位數或各組單位數在總體單位數中所占的比重,這樣形成的數列稱為次數分布數列,簡稱為分布數列或次數分布(分配)。分布在各組的數據個數叫次數或頻數;各組數據個數在全部數據個數中所占的比重又稱為頻率。分布數列是統計整理結果的基本表現形式,在統計分析中具有廣泛的用途。分布數列可以反映總體的分布特征、結構,并據以研究總體單位某一標志的集中趨勢和離散程度。分布數列由兩個基本要素構成:一是分組標志的具體表現;二是各組次數(頻率)。
(2)次數分布數列的種類
根據分組標志不同,分布數列可以分為品質分布數列和變量分布數列。品質分布數列是按照品質標志分組而形成的分布數列,簡稱品質數列,是定性數據數列,用來反映不同屬性的各組次數在總體中的分布狀況,它由各組名稱和各組次數構成。見表2-1,將2015年全國就業人口按產業分組,可以分為第一產業、第二產業和第三產業,這便是各組名稱;列出每次產業的就業人數,這便是次數,這樣就形成了一個品質數列,這是一個定類數據的數列。表2-2是將居民對住房的滿意程度分為非常滿意、滿意、一般、不滿意、非常不滿意,列出每組的戶數,這樣就形成了一個品質數列,這是一個定序數據的數列。
表2-1 2015年我國就業構成

資料來源:《中國統計年鑒》(2016年)。
表2-2 某地區居民對住房狀況評價

變量分布數列簡稱變量數列,是按數量標志分組形成的分布數列,由各組變量值及各組次數構成。變量數列可分為單項式變量數列和組距式變量數列。單項式變量數列(如表2-3)是把每一個變量值作為一組,這種分組通常只適合于離散變量,且在變量值的變動幅度不大的情況下使用。在連續變量或離散變量的變量值變動幅度比較大時,應該編制組距式變量數列。組距式變量數列(如表2-4、表2-5)簡稱為組距數列,是將全部變量值依次劃分為若干個區間,將這一區間的變量值作為一組,每一區間兩端的值稱為組限,各組的最小值稱為下限,最大值稱為上限。
表2-3 某企業某日工人日產量

表2-4 某地區某年農民人均年收入

表2-5 我國第六次人口普查人口年齡結構

組距式變量數列組限的表示可以重疊,也可以不重疊。對離散變量一般采取不重疊組限形式,即前一組上限與下一組下限分別用兩個數值表示;對連續變量理論上說,應采用重疊組限形式,即前一組上限與后一組下限用同一數值。此時,遵循“上組限不在內”的規定,即如果某個變量值剛好等于組限,將其歸入下限所在組。但在實際工作中,也常常對連續變量只取整數,且采取不重疊組限,如表2-5。
組距式變量數列中,區間的長度稱為組距。對重疊形式的組限,組距=上限-下限,如表2-4第二組組距為4000-3500=500(元);對于不重疊形式的組限,組距=本組上限-上組上限(或=下組下限-本組下限),如表2-5第二組的組距為64-14=50(歲),或65-15=50(歲)。如果第一組只有上限,最后一組只有下限,這樣的組稱為開口組,這樣的數列稱為開口數列,如表2-5。開口組一般以相鄰組組距為其組距來計算組中值。開口式分組適用于數據集有極端值且較分散的情況。
各組上限與下限的中點值稱為組中值,即:,或組中值=上限(下限)?
。組距分組掩蓋了各組內的數據分布狀況,為了反映各組數據的一般水平,通常用組中值作為該組數據的代表值。但這種代表有一個必要的假定條件,即各組數據在本組內呈均勻分布或在組中值兩側呈對稱分布。如果實際數據的分布不符合這一假定,用組中值作為一組數據的代表值會有一定的誤差。
組距數列按各組組距是否相等分為等距數列和異距數列。如表2-4中每組組距均為500元,是一個等距數列;表2-5中各組組距不等,是個異距數列。等距和異距的選擇,應該根據統計研究目的和現象的特點而定。如果為了直接比較各組次數多少,或現象性質特征的變化是比較均勻的,就可以采用等距分組;否則,就需要采用異距分組。
(3)次數分布數列的編制
編制變量數列的目的在于對定量數據及其特征進行觀察和分析。在編制變量數列時,首先要根據研究目的和現象的特點確定是編制單項數列還是組距數列,組距數列是采用等距還是異距,是否需要開口等。下面結合具體的例子說明分組的方法和過程。
【例2-1】下面是某班學生統計學的考試成績數據,試編制變量數列來反映該班學生成績的分布特征。該班學生的考試成績如下:
67 90 52 88 78 91 65 63 66 89 85 77 85 62 76 79
81 42 76 82 84 60 70 85 69 71 76 78 73 86 65 67
75 94 66 83 78 87 70 61 89 75 76 80 72 78 66 88
65 69 64 97 79 76 80
采用手工分組時,要先對上面的數據進行排序(使用計算機分組不必排序)。分組的具體步驟如下:
第1步:確定分組的形式。對考試成績可編制等距數列。找出數據的最大值和最小值,本例的55個數據的最大值是97,最小值是42,數據的波動幅度(全距或極差)為55分。不及格的有2人,最低分數為42分,故應該采用開口組。
第2步:確定組數。數據分成多少組,一般與數據本身的特點及數據的多少有關。組數太多或過少都不適宜。如果組數太多,數據的分布就會過于分散,組數過少,數據的分布就會過于集中,這都不便于觀察數據的分布特征和規律。
第3步:確定組距。組距與組數成反比,可根據全部數據的全距(極差)和組數來確定,即組距=全距/組數。本例中全距為55,組數若為5,則組距=55/5=11。為便于計算分析,組距宜取5或10的倍數,而且第1組的下限應該低于最小變量值,最高一組的上限應高于最大變量值,因此組距可取10分。
第4步:確定組限。組限應是引起事物質變的數量界限,并有利于表現總體分布的規律性。因此組限的選擇應當能夠反映現象本質特征。本例中成績是連續變量,可采用組限重疊的形式。
第5步:計算各組次數,形成變量數列。根據所確定的組數、組距和組限,將全部數據歸入各個不同的組,計算出各組的頻數或頻率,即可編制出變量數列。表2-6就是例(2-1)分組整理后所得的變量數列。
表2-6 某班學生統計學成績分布表

(4)累計次數分布與洛倫茲曲線
變量數列只能反映各組次數的分布狀況,但有時我們還需要了解大于或小于某個數的次數或百分數的多少,這時就需要計算累計次數。次數累計的方法有向上累計和向下累計兩種,向上累計是將各組的次數(頻數或頻率)由變量值小的組向變量值大的組累加,各組的累計次數表明小于該組上限的次數或百分數共有多少,如表2-6中,80分以下的共有36人,占全部人數的65.46%;向下累計是將各組的次數由變量值大的組向變量值小的組累加,各組的累計次數表明大于該組下限的次數或百分數共有多少,如表2-6中,70分以上的有38人,占全班人數的69.09%。
累計次數分布不僅可以用表格表現,還可以用折線圖和曲線圖來表示。對表2-6中的累計次數,我們可以繪制成折線圖,如圖2-1和圖2-2所示。

圖2-1 向上累計次數分布圖

圖2-2 向下累計次數分布圖
繪制向上累計折線圖時,從首組的下限開始將各個累計次數組的下限縱坐標連接起來,目的是使累計折線圖的意義與累計次數的意義一致。
累計頻率(%)和累計頻率折線圖可利用Excel來求得,其操作方法是在“數據分析”工具中選擇“直方圖”,在出現的對話框選擇“累計百分率”和“圖表輸出”,即可輸出頻數分布和直方圖的同時輸出向上累計頻率和向下累計頻率折線圖。
累計次數分布曲線圖在統計分析中應用十分廣泛,其中影響較大的是洛倫茲曲線。洛倫茲曲線是20世紀初美國的統計學家洛倫茲(M.F.Lorenz)根據意大利經濟學家帕累托(V.Pareto)提出的收入分配公式繪制成的描述收入和財富分配性質的曲線,如圖2-3所示。

圖2-3 洛倫茲曲線和基尼系數
洛倫茲曲線可用于分析一國或一地區收入分配的平均程度。若一國的收入分配是絕對平均的,則洛倫茲曲線為該正方形的對角線,稱為絕對平均線;若一國的收入分配不平均,則該曲線就會靠近下橫軸和右縱軸。若一國收入分配越是趨向平均,洛倫茲曲線的弧度就越小;若一國收入越是趨向不平均,洛倫茲曲線的弧度就越大。
為了更準確地反映收入分配的變化程度,20世紀初意大利經濟學家基尼(G. Gini)根據洛倫茲曲線給出了衡量收入分配平均程度的指標,即基尼系數,其計算公式為:

其中A為實際收入曲線與絕對平均線之間的面積,B為實際收入曲線與絕對不平均線之間的面積。該系數可在0和1之間取任何值,系數越接近于0,收入分配越平均。聯合國有關組織規定:若低于0.2表示收入絕對平均;0.2~0.3表示比較平均;0.3~0.4表示相對合理;0.4~0.5表示收入差距大;0.6以上表示收入差距懸殊。基尼系數狹義上專門用于收入分配問題的研究,實際上可拓寬到對一切分配均衡程度的衡量,是一種廣義的均衡分析工具。
(5)次數分布的類型和次數分布圖
①次數分布的類型。
次數分布的類型主要有三種:鐘形分布、U形分布、J形分布。
鐘形分布也稱為正態分布,其特征是中間變量值出現的次數多,極大值和極小值出現的次數少,即“中間大,兩頭小”,圖形為左右對稱的倒掛的古鐘,這是客觀事物數量特征表現最多的一種形式,如人的身高、農作物產量等,如圖2-4。

圖2-4
偏態分布根據尾巴拖向哪一方又可分為正偏(或右偏)和負偏(或左偏)分布,如圖2-5。

圖2-5
U形分布又稱為倒鐘形分布,與鐘形分布正好相反,呈現出“中間小,兩頭大”的特征。人口按年齡分組的死亡率的分布就呈U形分布,如圖2-6。

圖2-6
J形分布的特征是“一頭大,一頭小”。如果隨著變量值增大,次數也增多,這種分布稱為正J形分布;如果變量值增大,次數減少,這種分布稱為反J形分布。如圖2-7。

圖2-7
②次數分布圖。
分組數據頻數分布的特征常用直方圖顯示。以柱形圖的形式對頻數分布進行圖形化描述得到的圖叫直方圖。直方圖是用于展示組距數列分布特征的一種圖形,它是在直角坐標中,用橫軸表示數據的分組,縱軸表示頻數或頻率,這樣各組與相應的頻數就形成了一個矩形,用矩形的寬度和高度(面積)來表示頻數分布。對于等距數列,各組頻數可以直接作為直方形的高度。圖2-8是根據表2-6資料繪制的直方圖,從這個直方圖我們可以更直觀地看出學生成績的分布狀況,即成績在70~80分的人數最多,60~70分和80~90分的人數相差不大。

圖2-8 學生成績次數分布直方圖
但對于異距數列,由于各組組距不同,頻數的差異不能直接表明數據分布的特征。這時就需要根據頻數密度來繪制直方圖,以準確反映各組數據分布的特征。其方法是:以各組頻數密度(頻數密度=頻數/組距)為各組直方形的高度,或先確定標準組距,將標準組距乘以各組頻數密度得到標準組距頻數,再以各組的標準組距頻數為各組直方形的高度。
與直方圖作用相似的是折線圖。它以各組的組中值為該組的代表值,然后用折線將各組次數連接起來,就形成了折線圖,也稱為次數多邊圖。直方圖與折線圖的面積是相等的,因此,直方圖與折線圖所表示的分布規律是相同的,是兩種面積相同但表示形式不同的次數分布圖。如圖2-9所示。需要注意的是,折線圖的兩個終點要與橫軸相交,這樣才會使折線圖下所圍成的面積與直方圖的面積相等,從而使二者所表示的頻數分布一致。

圖2-9 學生成績次數分布折線圖
曲線圖是折線圖的理論圖,當變量數列的組數無限多時,折線就表現為一條光滑的曲線。如圖2-10所示。

圖2-10 學生成績次數分布曲線圖
利用Excel可對原始數據進行分組并得到頻數分布和直方圖。具體步驟如下:點擊“工具”→“數據分析”→“直方圖”。在“直方圖”中的“輸入區域”輸入數據所在區域;在“接收區域”輸入指定的分組上限值所在區域;在“輸出區域”指定頻數分布表輸出區域的起點單元格;選擇“圖表輸出”;最后點擊“確定”即可得到次數分布表和直方圖(如圖2-11所示,是例2-1用Excel進行分組得到的頻數分布和直方圖)。

圖2-11 Excel的次數分布和直方圖
在直方圖的任一條形上點擊右鍵,選擇“數據系列格式”,在“選項”中將“分類間距”調整為0,即可得到條形之間無間隔的直方圖,如圖2-8所示。