官术网_书友最值得收藏!

描述數據

學習目標問題 1-12 我們如何使用三種集中量數來描述數據?兩種差異量數的相對效用是什么?

研究人員采集完數據,可以采取描述性統計來對數據進行整理,將數據轉換成簡單的條形圖正是這類方法之一。如圖1.8所示,該圖展示了十年后仍在道路上行駛的不同品牌卡車的數據分布情況。觀察這樣的統計圖時,我們要格外注意。要設計一個令差異看起來明顯(圖1.8a)或不明顯(圖1.8b)的圖表是很容易的,關鍵在于如何標注縱向刻度(Y軸)。

圖1.8 觀察刻度標簽

要記住的一點:我們要聰明地思考。在解釋圖表時,要考慮刻度標簽,注意刻度范圍。

自問

你有沒有在課堂上、論文中,或者與朋友或家人討論時,用統計說明某一問題的經歷?回想一下,你引用的數據是否準確可信?你怎么知道這一點?

檢索練習

RP-1 圖1.8的圖(a)由一家卡車制造商提供,圖中包含實際的品牌名稱,表明其卡車的耐用性更佳。關于不同品牌卡車的耐用性,圖(b)說明了什么?這是如何做到的?

答案見附錄D

集中量數

接下來則是通過集中趨勢測量對數據進行概括,即用一個數值來代表整組數值。最簡單的測量方法是眾數(mode),即出現頻率最高的一個或多個數值。我們最熟悉的方法是平均數(mean,或算術平均數),即所有數值的總和除以數值的個數。而中位數(median)則是位于中點(第50個百分位)的那個數值。在分隔的高速公路上,中央隔離帶處于中間位置,對數據而言也是如此。如果將所有數值從高到低進行排列,一半數值會在中位數之上,另一半數值會在中位數之下。

眾數:一組數據中出現頻率最高的一個或多個數值。

平均數:一組數據的算術平均數,通過將全部數值相加后再除以數值的個數得到。

中位數:一組數據中位于中間的那個數值;一半的數值比它大,另一半比它小。

集中量數簡明地概括了數據。但是,分布不平衡時(因為幾個異常數值而產生偏態),平均數會發生什么變化?以收入數據為例,眾數、中位數和平均數往往講述了截然不同的故事(圖1.9),這是因為平均數會受到少數極端收入的影響而發生偏差。當亞馬遜創始人杰夫·貝佐斯(Jeff Bezos)進入一家小咖啡館時,其他顧客立刻成了(平均數意義上的)億萬富翁,但顧客們財富的中位數并沒有變化。

圖1.9 偏態分布

這一收入分布圖說明了集中趨勢的三個測量標準:眾數、中位數和平均數。請注意,僅需幾個高收入家庭就能令平均數(平衡高低收入的支點)顯得很高。

理解了這一點,你就能明白為什么2010年美國人口普查時近65%的美國家庭的收入“低于平均水平”,處于底層的一半掙錢者的收入遠低于全國總收入的一半。因此,大部分美國人的收入低于平均水平(平均數)。平均數和中位數反映的真實故事截然不同。

要記住的一點:一定要注意報告的是哪種集中量數。如果是平均數,請考慮一些非典型的數值是否會令其產生偏差。

差異量數

一個恰當的集中量數可以告訴我們很多東西,但這個單一的數字也會忽略許多其他信息。而了解數據的變異性(數據的相似性或差異性)則會有所幫助。由低變異性數據得出的平均值比基于高變異性數據的平均值更可靠。假如在本賽季的前10場比賽中,某籃球運動員每場比賽的得分都在13到17分之間。了解這一點后,我們更相信該運動員下一場比賽中的得分會在15分左右,而非5分到25分不等。

數值的全距(range,最小值和最大值之間的差距)只是對變化的粗略估計。在其他類似群體中,如果有幾個極端數值,如圖1.9中的950 000美元和1 420 000美元的收入,就會令數值范圍出奇地大。

全距:分布中最小值和最大值之間的差距。

標準差:測量數值在平均數周圍變化程度的計算方法。

測量數值之間偏離(差異)程度的更有效標準是標準差(standard deviation),它會使用所有數值的信息,能夠更好地測量數值是集中還是分散。該計算公式[1]收集了有關單個數值與平均數的差異程度的信息,可以很好地說明問題。比如,A班和B班考試成績的平均數相同(75分),標準差卻迥然不同(A班為5.0,B班為15.0)。你是否有過這樣的考試經歷,一門課程有三分之二的同學成績在70分至80分之間,而另一門課程的成績則更加分散(三分之二的同學成績在60分至90分之間)?標準差和平均成績會準確地告訴我們每個班級的實際情況。

思考數值的自然分布趨勢,你就會理解標準差的含義。數量較大的數據,如身高、智力分數或預期壽命等,通常會呈對稱的鐘形分布:大部分數值都落在平均數附近,只有較少數值落在兩個極端附近。這種鐘形分布非常典型,我們將其形成的曲線稱為正態曲線(normal curve)。

正態曲線:一種對稱的鐘形曲線,可用于描述多種類型數據的分布情況;大多數數值都分布在平均數附近(約68%的數值位于一個標準差之內),越靠近極端位置的數值分布越少。正態曲線也稱為正態分布。

如圖1.10所示,正態曲線一個有用的屬性在于,大約68%的個案都落在平均數兩側一個標準差的范圍內,大約95%的個案落在兩個標準差的范圍內。因此,正如本書第10章顯示的,大約68%的人的智力測驗分數在100±15分的范圍內,大約95%的人的測驗分數在100±30分的范圍內。

圖1.10 正態曲線

能力測驗的分數往往圍繞著平均數形成一條正態曲線。以韋氏智力量表為例,其平均得分是100分。

檢索練習

RP-2 數值分布的平均值是___,出現頻率最高的數值是___,一半數值比它大、一半數值比它小的數值中間值是___。我們確定數值圍繞平均數變化的程度,需要有關數值的____,需要使用___公式。

答案見附錄D

主站蜘蛛池模板: 施甸县| 墨脱县| 台东县| 嘉鱼县| 鄱阳县| 和平区| 灵宝市| 聂荣县| 清新县| 拜泉县| 徐闻县| 科技| 德兴市| 许昌市| 雷山县| 玉环县| 依兰县| 十堰市| 连州市| 浠水县| 长兴县| 海林市| 绥阳县| 比如县| 隆回县| 三亚市| 黄大仙区| 乌拉特中旗| 长沙县| 杭州市| 枞阳县| 镇原县| 巧家县| 延寿县| 射洪县| 南澳县| 阳西县| 团风县| 孟连| 辰溪县| 吉隆县|