- 統計學實務(第5版)
- 梁俊平
- 744字
- 2020-06-19 14:10:25
第3章 如何用簡單圖表展現數據
引導案例
在日常生活中大家多多少少都會使用數據:在商務領域,每天的客戶數量和銷售額是最重要的數據;對學生來說,考試成績的數據在升學問題上發揮重要作用;成年人會對每年的定期健康檢查中血壓和血液成分的數據很關心,生活中與數據沒有關系的人是不存在的。
但是,光是瀏覽原始數據(單純列舉的數字)恐怕什么也弄不明白。確實,數據在一定意義上是體現“現實本身”的。但是,在“打眼一瞧什么也不明白”這一點上,“數據”也好,“現實”也罷,都有相同之處。比如,請瀏覽一下圖3-1。

圖3-1 80位女大學生身高(cm)數據
這是80位女大學生的身高數據(從石村貞夫的《話統計解析》中刊登的200個數據中抽取的最初80個)。
從這80個數據中能得到什么?
首先能確認“女大學生的身高各不相同,數據參差不齊”。
作為“日本成年女性”的一部分,這些女大學生的身高數值是多種多樣的。這種“多種多樣的數值”,用術語來說叫作“分布”。分布的產生,是決定數值背后的某種“不確定性”作用的結果,除此別無其他。不確定性的結構會產生參差不齊的身高數值。但是即使概括地說這些數據是“不確定的”,它們也有自己固有的“特征”和“特點”。這種固有的特征和特點叫作“分布特性”。
那么,這些身高數據固有的特征和特點是什么?對于熟悉數據解析的人來說,即使從列舉的數值中也能抽取出很多的特征和特點。普通人則只能看到簡單的數字羅列。
所以,從這些原始數據,也就是“原始的現實”中,抽取出分布的特征和特點的手法就很有必要。這就是統計的手法。
統計學使用的方法叫作“壓縮”。所謂壓縮,是指“將作為數據列舉的大量數字,以一定的基準進行整理,只抽取有意義的信息”。大致來說有如下兩種手法:
1)以圖畫捕捉其特征;
2)以一個數字來代表特征。其代表數字叫作“統計量”。
本章主要給大家介紹整理數據的手法。