官术网_书友最值得收藏!

1.7 數據的錄入與前期處理

1.7.1 數據的錄入與檢查

多元數據的統計分析離不開統計軟件。分析前必須將采集到的數據錄入到計算機的數據文件中。大規模的數據錄入往往借助機器自動錄入。但對于初學者來說,手工錄入數據是經常性的工作,必須從一開始便養成良好的錄入習慣。

正確錄入數據往往需要注意以下幾個方面:

(1)選擇正確的錄入格式。

根據1.4節中多元數據的矩陣表示,將同一被試個體的數據錄入到數據文件的同一行(稱為一個記錄),同一變量的數據錄入到數據文件的同一列(如圖1.7所示)。假如不同樣本的變量順序在采集過程中有差異,錄入時要注意調整,以保證數據文件中的同一行記錄的是同一被試個體的數據,同一列是同一變量的觀測數據,否則計算時就會出錯。

圖1.7 數據錄入(SPSS的數據編輯界面)

用SPSS, Excel等統計軟件錄入數據時,數據文件的畫面中雖然有行號,但是根據實踐經驗,我們建議在原始數據文件的首列增加一個ID變量(圖1.7的第1列),即對每行數據(每個記錄)賦予一個獨立的ID編號,并且將它們標在回收的問卷等原始資料上,以保持數據文件與原始資料的對應關系。在核對與整理中一旦發現有誤,可以返回原始資料查對。在復制文件中刪除的某些被試個體的記錄,需要時也可根據ID在原始數據文件中找到。另外有了獨立的ID編號,不論以何種條件重新排序(例如以某觀測變量的大?。?,可以很方便地恢復到數據文件的初始狀態。

(2)保存資料的原始信息于原始數據文件中。

首先,錄入數據時盡量避免做人為的加工。例如,錄入四選一形式的作答結果時,不能人為地換成對錯結果錄入,必須如實錄入被試具體的選擇,以形成原始數據文件。

另外,調查中獲得的樣本屬性的其他信息(例如,被試的性別、年齡、學校等)也應保存到原始數據文件中。因為這些信息常常是研究者發現新問題的線索。例如,調查某高校數學與語文的錄取成績時,發現全校新生的兩科成績之間沒有相關,但是按文理科分開看的話,這兩科成績之間存在著正相關(圖1.8(a));在分析全體新生的語文與英語成績時,發現兩科成績之間存在正相關,但是按性別單獨看時,這兩科成績間卻沒有什么相關(圖1.8(b))。這個例子啟發我們作數據分析時不要忽視那些附帶的屬性。在很多場合,那些屬性會啟發我們開展新的研究。

圖1.8 總體合并對相關系數的影響

在調查中經常會出現被試回答不全或拒絕回答的現象。在錄入數據時,缺失的數據最好按原樣或空格錄入,盡量避免用“0”或其他數字來表示,例如,在錄入5分制的數據時,把缺失數據用“0”或“9”表示。這種處理雖然可以區別數據的缺失與否,但是使用統計軟件時,計算機容易將“0”“9”誤判為觀測數據,出現計算差錯。

(3)錄入數據后一定要復驗。

在數據的錄入過程中,難免會發生誤錄的現象。因此,檢查數據文件是否存在錄入錯誤是分析前不可缺少的一環。首先,錄入數據后一定要逐一核對原始資料,這對初學者來說尤其重要。其次,利用統計軟件中的描述統計功能,查看各個觀測變量的最大和最小值以確認是否存在異常值。例如,在作答只有1~5五個等級的數據中,若出現了0或大于5的數值,顯然是錄入錯誤。再如,將身高數據172.5誤錄為17.25,1725等,也是錄入時常出現的失誤。如果某變量的最大或最小值超出了合理范圍,需要對照原始資料檢查這個數據的前后數據,看是否存在誤錄。

(4)一切操作都在復制的新文件上進行。

原始數據文件應妥善保存。一切操作都應在復制的新文件上進行,這樣可以避免因操作失誤導致對原始數據文件的破壞。需要對數據進行變換時(例如將選項變換成0 1數據),就在復制文件上進行數據變換。直接在原始數據文件上進行數據變換的話,一旦出錯往往很難在數據復核中查出。

最后保存新文件時,文件名中需要包含改動時間、內容等信息,以便區分不同版本的數據文件。例如,原始數據文件名為Data2014.sav,將改動后的新數據文件命名為Data2014-08-12.sav或Data2014-z.sav等。

1.7.2 數據的前期處理

(1)缺失數據。

在數據的收集過程中,常常會因實驗器械的故障、問卷調查中的無回答項目或無效解答(例如單選項目中選擇多個選項等不符合答題要求的解答)等原因,出現部分數據缺失(missing data)的現象。針對不同原因導致的數據缺失,相應的處理方法也各不相同。

總的來說,缺失數據的處理方法可分為兩大類,刪除或用估計值替代。最簡單的替代方法是用各變量的平均值、中數等代表值來替代。在實際操作中,可先將樣本按某一標準分為若干組,再用各組的代表值來替代缺失數據。計數數據一般用最高頻值,計量數據多用平均值。當樣本量較大時,還可找出除缺失數據之外的與該個體的其他觀測數據類似程度最高的個體,用其對應的觀測數據來替代缺失數據。此外,如果缺失數據為名義數據(而且數量較多時),可以將其作為一個單獨的類別來處理(例如,某名義變量有五個類別,用數字1~5表示,則可將缺失數據處理為“6”,成為第六個類別)。缺失數據為計量數據時,還有一些較復雜的估計方法,如用回歸預測、主成分得分等,但方法越復雜,估計值的質量越難控制。如何正確選擇與應用處理缺失值的方法,不僅需要學習相關的專業知識(Little&Rubin,2002),還需要在實踐中不斷地積累經驗。

采用刪除缺失數據的處理方式時,首先需要確認發生缺失數據的個體是否存在某種共性。例如,在某中學生學業水平調查中,如果發現平時成績較差學生的數據大量缺失,就可判斷這個樣本的代表性有問題,需要補充相應程度學生的數據。如能夠判斷這些缺失數據是隨機發生的,則可考慮刪除這些缺失的記錄,但必須評估刪除后的統計結果是否達到預想的精度。若不影響精度要求,則建議全部刪除這些含有缺失數據的記錄。因為,倘若某一記錄在變量X上有缺失數據,在變量Y和Z上則不然,考慮到大多數的統計軟件,只是計算變量X與Y, X與Z的協方差或相關系數時,將該記錄的數據排除在外,但在計算Y與Z的協方差或相關系數時,就不會排除該記錄,故這樣的處理雖然可以最大限度地利用觀測數據,但是會使協方差或者相關系數矩陣無法保證是正定對稱的,即不能保證特征值全部為正值,這樣在統計推測的過程中就容易出現問題。

雖然各種用來替代缺失數據的估計值有著不同的精度,但無論何種估計值,都與真值存在差異,都會導致統計分析結果發生偏離。對初學者來說,往往很難判斷這種影響的大小。因此,我們建議在初學階段采用刪除這些缺失數據的處理方式。當然,最好的方法是在數據采集中盡可能地避免缺失數據的發生。

(2)離群數據。

所謂離群數據(outlier)是指變量的觀測數據中超出常規(期待范圍)的特大或特小值。數據文件中各變量是否存在離群數據,可以利用描述性統計量(表1.8)、直方圖(圖1.9(a))或箱圖(圖1.9(b))等工具來檢查。如果某變量服從正態分布,則距離均值的絕對值大于3個標準差的觀測數據、直方圖中正態分布曲線外側的數據,或者位于箱圖上、下邊緣橫線以外的數據均可視為離群數據。

表1.8 多元變量數據的描述性統計量

圖1.9 父親身高數據

出現離群數據的原因,大致可分為兩類:一是數據采集過程中由各種失誤造成的。由失誤(例如,測量器具故障、環境的變化、誤記錄等干擾因素)和個體的異常(例如,被試的認真程度、健康狀況等干擾因素)等原因造成的異常數據,稱為異常值(與其他觀測數據差異很大,似不屬于同一總體)。對于這種情況的離群數據,一旦確認應排除在統計分析之外。

二是由于抽樣范圍不合理、總體分布的固有特性等原因所致。具體地說,當抽出的樣本缺乏代表性,樣本量又偏少,變量的總體分布偏離正態分布比較嚴重等因素影響下,變量的觀察數據會出現離群數據。這種離群數據對于總體來說并非異常,只是這個變量的極端值(雖然與其他觀測數據呈現很大的差異,但與其他觀測數據屬于同一總體)。

對于這類原因形成的離群數據,應盡可能在多變量條件下做進一步考查。往往有這種情形:單獨觀測某變量的數據時發現存在離群數據,但從多個變量所提供的信息來看,該數據并非是異常值。例如,在一組樣本量為100的父親、子女身高的數據中,單獨觀察父親或子女身高箱圖(圖1.10(a)),第51號被試的數據被視為異常,但是從女兒身高與父親身高的關系來看(圖1.10(b)),第51號被試的數據只是一個極端值而已。

圖1.10 父親與子女的身高數據

相反,分別觀測各變量的數據時沒有發現離群數據,但從多變量的觀測數據全體來評價,有可能存在離群數據。例如,在一組樣本量為50的初中語文與英語成績的調查數據中,單獨從英語或語文成績的數據(圖1.11(a))來看,兩個變量的觀測數據中都不存在離群數據。但是,從語文與英語成績的散點圖(圖1.11(b))來看,第47號被試顯示出與其他被試不同的特性。對于這種離群數據,應在詳細考查發生原因的基礎上再決定處理方式。如果有證據表明存在干擾因素(例如,第47號被試的語文成績低下是由于語文測試時身體不適),在統計分析中應刪除該數據;如果是因為被試的自身特性造成的(例如,第47號被試曾長期生活在英語環境中),應根據研究目的來決定是否取舍。因此處理第二種原因造成的離群數據,特別是多變量的離群數據要比單變量的復雜得多,需要我們根據相關信息進行綜合分析。特別是分析大規模的調查數據,例如全國性大型考試、國際協作調查,在數據處理前一定要有綜合分析。在這種情況下,我們建議同時分析包含與不包含極端值的數據,然后比對兩種統計結果。

圖1.11 語文和英語成績數據

對于初學者而言,需要分析的數據往往樣本量不大,數據中含有極端值時常會使統計軟件無法正常運行。即使得到某種結果,該結果解釋也會變得異常復雜。因此初學者可以先排除數據中的極端值,然后再進行統計分析。有條件的話也可像上述處理大數據那樣給出包含與不包含極端值的兩種分析結果,方便比對。如果對研究總體的界定和估計精度有嚴格要求的話,則需要增加樣本量后重新分析。

主站蜘蛛池模板: 新昌县| 嘉禾县| 吉安县| 深水埗区| 石台县| 安福县| 平定县| 定结县| 双柏县| 崇礼县| 巴林右旗| 巴楚县| 浦东新区| 鹤峰县| 汨罗市| 亚东县| 马边| 烟台市| 延津县| 垦利县| 桐庐县| 辽宁省| 元朗区| 敦煌市| 文安县| 永城市| 青冈县| 朝阳县| 云和县| 松阳县| 定州市| 奇台县| 永安市| 内丘县| 乐陵市| 松溪县| 蒙阴县| 麻栗坡县| 河西区| 喀什市| 筠连县|