官术网_书友最值得收藏!

第3章 如何用簡單圖表展現數據

引導案例

在日常生活中大家多多少少都會使用數據:在商務領域,每天的客戶數量和銷售額是最重要的數據;對學生來說,考試成績的數據在升學問題上發揮重要作用;成年人會對每年的定期健康檢查中血壓和血液成分的數據很關心,生活中與數據沒有關系的人是不存在的。

但是,光是瀏覽原始數據(單純列舉的數字)恐怕什么也弄不明白。確實,數據在一定意義上是體現“現實本身”的。但是,在“打眼一瞧什么也不明白”這一點上,“數據”也好,“現實”也罷,都有相同之處。比如,請瀏覽一下圖3-1。

圖3-1 80位女大學生身高(cm)數據

這是80位女大學生的身高數據(從石村貞夫的《話統計解析》中刊登的200個數據中抽取的最初80個)。

從這80個數據中能得到什么?

首先能確認“女大學生的身高各不相同,數據參差不齊”。

作為“日本成年女性”的一部分,這些女大學生的身高數值是多種多樣的。這種“多種多樣的數值”,用術語來說叫作“分布”。分布的產生,是決定數值背后的某種“不確定性”作用的結果,除此別無其他。不確定性的結構會產生參差不齊的身高數值。但是即使概括地說這些數據是“不確定的”,它們也有自己固有的“特征”和“特點”。這種固有的特征和特點叫作“分布特性”。

那么,這些身高數據固有的特征和特點是什么?對于熟悉數據解析的人來說,即使從列舉的數值中也能抽取出很多的特征和特點。普通人則只能看到簡單的數字羅列。

所以,從這些原始數據,也就是“原始的現實”中,抽取出分布的特征和特點的手法就很有必要。這就是統計的手法。

統計學使用的方法叫作“壓縮”。所謂壓縮,是指“將作為數據列舉的大量數字,以一定的基準進行整理,只抽取有意義的信息”。大致來說有如下兩種手法:

1)以圖畫捕捉其特征;

2)以一個數字來代表特征。其代表數字叫作“統計量”。

本章主要給大家介紹整理數據的手法。

主站蜘蛛池模板: 仁布县| 大新县| 广东省| 万盛区| 襄樊市| 铜陵市| 吐鲁番市| 西藏| 南充市| 莱州市| 交口县| 子洲县| 蕉岭县| 文化| 潮州市| 柘城县| 阿图什市| 大余县| 景洪市| 门源| 江城| 西城区| 休宁县| 平舆县| 巫山县| 庆城县| 介休市| 江城| 兰坪| 岳普湖县| 宜阳县| 项城市| 明水县| 澜沧| 中江县| 上栗县| 土默特右旗| 嘉禾县| 肥西县| 瑞安市| 奉贤区|