官术网_书友最值得收藏!

四、箱形圖

箱形圖又稱為盒須圖、盒式圖或箱線圖,如圖2-10,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在各種領域也經常被使用,常見于品質管理。

圖2-10 箱形圖

箱形圖的繪制需使用常用的統計量,能提供有關數據位置和分散情況的關鍵信息,尤其在比較不同的母體數據時更可表現其差異。如圖2-10所示,圖中標示了每條線表示的含義,其中應用到了分位值(數)的概念。主要包含六個數據節點,將一組數據從大到小排列,分別計算出它的上邊緣,上四分位數Q3,中位數,下四分位數Q1,下邊緣,還有一個異常值。

箱形圖的作用如下。

(1)識別數據異常值 一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。箱形圖為我們提供了識別異常值的一個標準:異常值被定義為小于或大于的值。雖然這種標準有點任意性,但它來源于經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。

眾所周知,基于正態分布的3σ法則或z分數方法是以假定數據服從正態分布為前提的,但實際數據往往并不嚴格服從正態分布。判斷數據異常值的標準是以計算數據批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產生較大影響,這樣產生的異常值個數不會多于總數0.7%。顯然,應用這種方法于非正態分布數據中判斷異常值,其有效性是有限的。

箱形圖的繪制依靠實際數據,不需要事先假定數據服從特定的分布形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;另一方面,箱形圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會對四分位數產生很大擾動,所以異常值不能對這個標準施加影響,因而箱形圖識別異常值的結果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優越性。

(2)判斷數據偏態和尾重 比較標準正態分布、不同自由度的t分布和非對稱分布數據的箱形圖的特征,可以發現:對于標準正態分布的大樣本,只有 0.7%的值是異常值,中位數位于上下四分位數的中央,箱形圖的方盒關于中位線對稱。

選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。

以卡方分布作為非對稱分布的例子進行分析,發現卡方分布的自由度越小,異常值出現于一側的概率越大,中位數也越偏離上下四分位數的中心位置,分布偏態性越強。異常值集中在較小值一側,則分布呈現右偏態;異常值集中在較大值一側,則分布呈現左偏態。這個規律揭示了數據批分布偏態和尾重的部分信息,盡管它們不能給出偏態和尾重程度的精確度量,但可作為我們粗略估計的依據。

(3)比較幾批數據的形狀 同一數軸上,幾批數據的箱形圖并行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便一目了然。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它群體中處于什么位置,可以通過比較各箱形圖的異常值看出。各批數據的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數據分布的偏態如何,分析中位線和異常值的位置也可估計出來。

主站蜘蛛池模板: 宣城市| 台中市| 乐安县| 稷山县| 保山市| 宁海县| 航空| 襄汾县| 元朗区| 上思县| 和顺县| 临高县| 绩溪县| 黄梅县| 阿克苏市| 商丘市| 林口县| 喀什市| 淮安市| 长寿区| 柏乡县| 衡东县| 麟游县| 涡阳县| 白银市| 项城市| 治县。| 宜良县| 河曲县| 常德市| 淮阳县| 天门市| 偃师市| 恩平市| 新干县| 罗源县| 东港市| 阿拉善盟| 巴彦淖尔市| 重庆市| 视频|