3 平均情況出乎意料?!
要想掌握數據的特征,就必須了解除平均值以外的代表值


平均值真的是大概數值?
接下來我要為大家介紹數據的特征。平均值是表示數據特征的數值之一,但也存在些許問題。以上述公司為例,單純從收入來看年收入平均水平較高的A公司更具吸引力。但是從員工的工資表來看,A公司8名員工的年收入為200萬日元,只有1人的收入極高。平均年收入是個數字,數字不會說謊,但是不是與你的設想差距很大呢?綜上所述,平均值作為顯示數據特征的數值有時也會與人們的設想有偏差。
表示“平均”“中間”和“頻出”的數值
表示數據特征的三個代表值
非常有名且簡單的概念,但容易受到極端數值的影響
算術平均值

●用所有數值的平均值來表示大致數值;
●如果存在極大值或極小值,那么必然會對平均值產生影響。

居于所有數值的正中間
中位數

●位于所有數值正中間的觀察值;
●與平均值相比,它不容易受到極端數值的影響。

該數值出現次數最多
眾數

●總體中出現次數最多的標志值;
●即使存在極端數值,也幾乎不受其影響。

示例(%)

雖然年收入平均值被高收入人群拉高,但大部分的日本人年收入保持在350萬日元左右。
了解三個代表值
表示數據特征的代表性數值被稱為“代表值”。其中第一個(最有名的)是“平均值”,它是數據資料中各個觀察值的總和除以觀察值個數所得的商,可以用來表示整體的大致水平。然而,其主要特征就是會受到極端數值的影響。第二個是“中位數”,它是將所有觀察值從小到大依次排列后居于中間位置的觀察值。即使此時存在極端數值,它所受到的影響也要比平均值小。第三個是“眾數”,它是數據資料中出現次數最多的數值且也不易受到極端數值的影響。
▼A公司員工的平均年收入分布圖

某個員工(可能是經理)獨占收入的無良企業。我們應當避免就職于該公司。
▼B公司員工的平均年收入分布圖

這是一家年收入逐漸上升的優良企業。不過,員工最高年收入卻低于A、C兩家公司。
▼C公司員工的平均年收入分布圖

雖然沒有A公司那么嚴重,但仍然可以確定部分員工獨占了利潤,因此也要盡量避免就職于該公司。
概述
表示數據特征的代表性數值稱為“代表值”,主要包括平均值、中位數和眾數等。
平均值表示數據的大致數值,但非常容易受到極端數值的影響。
中位數是位居正中間的數值,眾數是出現頻率最高的數值。這兩者均不容易受到極端數值的影響。
公式一覽表
平均值的意義
假設數據資料中的數值為,那么平均值
則表示如下。

通過頻數分布表計算平均值


中位數的定義
假設n個數據存在的關系。

如果數值個數為奇數,那么就只需將所有數值按照從小到大的順序依次進行排列,位于正中間的數值就是中位數。

如果數值個數為偶數,則取中間兩個觀察值的算術平均值當作中位數。