官术网_书友最值得收藏!

3 平均情況出乎意料?!

要想掌握數據的特征,就必須了解除平均值以外的代表值

平均值真的是大概數值?

接下來我要為大家介紹數據的特征。平均值是表示數據特征的數值之一,但也存在些許問題。以上述公司為例,單純從收入來看年收入平均水平較高的A公司更具吸引力。但是從員工的工資表來看,A公司8名員工的年收入為200萬日元,只有1人的收入極高。平均年收入是個數字,數字不會說謊,但是不是與你的設想差距很大呢?綜上所述,平均值作為顯示數據特征的數值有時也會與人們的設想有偏差。

表示“平均”“中間”和“頻出”的數值

表示數據特征的三個代表值

非常有名且簡單的概念,但容易受到極端數值的影響

算術平均值

●用所有數值的平均值來表示大致數值;

●如果存在極大值或極小值,那么必然會對平均值產生影響。

居于所有數值的正中間

中位數

●位于所有數值正中間的觀察值;

●與平均值相比,它不容易受到極端數值的影響。

該數值出現次數最多

眾數

●總體中出現次數最多的標志值;

●即使存在極端數值,也幾乎不受其影響。

示例(%)

雖然年收入平均值被高收入人群拉高,但大部分的日本人年收入保持在350萬日元左右。

了解三個代表值

表示數據特征的代表性數值被稱為“代表值”。其中第一個(最有名的)是“平均值”,它是數據資料中各個觀察值的總和除以觀察值個數所得的商,可以用來表示整體的大致水平。然而,其主要特征就是會受到極端數值的影響。第二個是“中位數”,它是將所有觀察值從小到大依次排列后居于中間位置的觀察值。即使此時存在極端數值,它所受到的影響也要比平均值小。第三個是“眾數”,它是數據資料中出現次數最多的數值且也不易受到極端數值的影響。

▼A公司員工的平均年收入分布圖

某個員工(可能是經理)獨占收入的無良企業。我們應當避免就職于該公司。

▼B公司員工的平均年收入分布圖

這是一家年收入逐漸上升的優良企業。不過,員工最高年收入卻低于A、C兩家公司。

▼C公司員工的平均年收入分布圖

雖然沒有A公司那么嚴重,但仍然可以確定部分員工獨占了利潤,因此也要盡量避免就職于該公司。

概述

表示數據特征的代表性數值稱為“代表值”,主要包括平均值、中位數和眾數等。

平均值表示數據的大致數值,但非常容易受到極端數值的影響。

中位數是位居正中間的數值,眾數是出現頻率最高的數值。這兩者均不容易受到極端數值的影響。

公式一覽表

平均值的意義

假設數據資料中的數值為,那么平均值則表示如下。

通過頻數分布表計算平均值

中位數的定義

假設n個數據存在的關系。

如果數值個數為奇數,那么就只需將所有數值按照從小到大的順序依次進行排列,位于正中間的數值就是中位數。

如果數值個數為偶數,則取中間兩個觀察值的算術平均值當作中位數。

主站蜘蛛池模板: 盐池县| 宝丰县| 亚东县| 桂阳县| 工布江达县| 阿拉善左旗| 贞丰县| 玉门市| 夏河县| 临夏县| 随州市| 襄城县| 安阳县| 本溪| 陕西省| 吉安县| 建阳市| 霸州市| 子洲县| 醴陵市| 长子县| 苍梧县| 巴彦县| 怀集县| 阳原县| 庆城县| 虹口区| 惠州市| 周口市| 湖南省| 荣昌县| 桓仁| 阿图什市| 林口县| 闵行区| 泰兴市| 固镇县| 永丰县| 穆棱市| 忻州市| 大渡口区|