官术网_书友最值得收藏!

1.3 多元數據的來源與質量

以獲得數據的方法來劃分,多元數據可分為實驗數據和調查數據兩大類。實驗數據來自科學的實驗設計,是圍繞實驗目的展開的,在控制了實驗對象、條件、形態等諸因素后獲得的隨機序列數據(需滿足抽樣與分配的隨機性)。調查數據也稱為非實驗性數據,主要來自于社會調查的結果(不容易保證上述隨機性)。相對于實驗數據,調查數據的獲得相對快捷,規模也更大,但是其中的誤差也更難控制。

此外,事先設定變量的分布等若干條件,由計算機生成的模擬數據(人工數據)也常用于各領域的研究中。

以數據的來源劃分,多元數據還可分為原始數據和二手數據。原始數據是指未經加工的實驗數據和調查數據,例如高考分數、人口普查結果等都是原始數據。原始數據蘊藏著大量的原始信息與誤差。原始數據經過某種統計處理得出的數據稱為二手數據。例如,政府部門和統計部門公布的有關資料、專業調查機構提供的統計數據等,都屬于二手數據。一般來說,二手數據的收集成本大大低于原始數據。在研究初期,利用二手數據有助于確定研究目標、了解研究背景、尋找研究思路以及改善原始數據的收集設計。但是利用二手數據時,必須清楚它的來源以及可信程度。

對于心理學、教育學等領域的初學者來說,上述數據都是我們的研究對象。只要這些數據能夠客觀全面地反映研究問題的真實狀況,就能為我們獲得正確結果奠定基礎。

我們在基礎統計學中已經知道,研究對象的全體稱為總體(population),樣本(sample)則是來自總體的部分集合,從總體中抽取樣本的過程稱為抽樣(sampling)。統計推論是統計學的主要內容,是通過樣本來預測、判斷研究對象的總體。多變量分析屬于統計推論(statistical inference)的一部分。由于研究條件有限,我們通常很難獲得總體的多元數據,大部分是樣本數據。可以從三方面考查樣本數據的優劣:一是樣本是否具有代表性;二是抽樣原則是否合理;三是樣本量是否充足。

我們先看圖1.1。圖中的圓圈表示總體,其中標以“☆”的個體集合表示樣本。如圖1.1(a)所示的樣本點均勻地取自總體,這個樣本能較好地代表總體;(b)中的抽樣可以接受,只是這個樣本的樣本量較小,可能會影響推測的精度;(c)所示的樣本點集中于總體的某部分,代表性欠缺,雖然樣本量較(b)的樣本量大些,但是用來推測總體的話會存在偏差。

圖1.1 樣本的代表性

為了獲得具有代表性的樣本,抽樣是關鍵的一環。一般來說,統計抽樣可分為兩類:隨機抽樣(random sampling)與目的抽樣(purposive sampling)。前者不包含抽樣者的主觀意圖與愛好,像抽簽或者投骰子那樣,隨機地從總體中抽出個體,以保證總體中每一成員被抽出的可能性相等,這樣的樣本數據具有不少統計學性質,例如具有良好的代表性、可以評價估計的精度等;后者則是抽樣者根據主觀意圖或者某種理論,盡量選出能夠代表總體的樣本。從實際操作角度來說,實施隨機抽樣比目的抽樣要復雜得多,目的抽樣的工作量相對少些,但控制抽樣偏差比較難。如何對這兩類抽樣取長補短,統計學家提出不少改善的方法,如系統抽樣、多段抽樣、分層抽樣以及比例抽樣等。我們以兩段抽樣為例,來了解一下具體的操作過程。例如,需要調查某市家庭的食品支出,計劃抽出有2000戶家庭的樣本。先從全市所有居委會中隨機抽出50個居委會,每個居委會稱為原始抽樣單位(primary sampling unit),然后再從這50個居委會中的每個居委會隨機抽出40戶家庭,每戶家庭稱為二次抽樣單位(secondary sampling unit),最后按公式計算出該市家庭的平均食品支出。

樣本量也是影響樣本代表性的重要因素。不同樣本關于某一變量的測量值是存在差異的,即使同一樣本重復測量,所得的觀測值也會不同。樣本量大些,各種統計量的結果就較為穩定。反之,不僅會增大抽樣誤差降低推論精確性,還會影響樣本對總體的代表性。例如,對某市高中學生身高的調查,如果一個樣本只有幾十名學生,哪怕這些學生是隨機抽的,該樣本的身高分布還是有可能偏離總體身高的分布,甚至出現樣本中性別比例的不均衡。因為男女生的平均身高本來就有差異,樣本中性別比例的偏差會影響全市高中生身高的推測精度。如果隨機抽出的樣本量足夠大,例如有幾百人或上千人的話,樣本的身高分布與總體分布的差異會大大減少,樣本中的性別比例也會接近總體的比例。

由此可見,適度增大樣本量可以提高樣本對總體的代表性,提高樣本統計量的穩定性。但是,樣本量與抽樣誤差并不是線性關系,樣本量由一百增加到一千的效果,遠遠大于樣本量由一千增加到兩千的效果。并且樣本量過大,雖然減小了抽樣誤差,但是調查成本會隨之增大,而且數據采集過程中因過失造成的誤差也會增加。因此,最好根據研究目的對推測精度的要求,以及所用的統計分析方法對樣本量的要求來決定樣本的數量。

從心理測量學的角度來看,評價數據質量時還需查看量表的信度與數據采集時的外部因素。在經典測量理論中,信度(reliability)是評價心理測量工具——量表精確度的重要指標。經典測量理論假定觀測分數由真分數與誤差分數兩部分組成:真分數是指不包含誤差的被試特質的真實值,誤差分數是指影響觀測分數的隨機誤差或系統誤差。在一定的假設條件下,可以導出觀測分數的方差恰好是真分數方差與誤差分數方差之和,于是信度被定義為

測量的信度系數=真分數的方差÷觀測分數的方差,

或者

測量的信度系數=1-(誤差分數的方差÷觀測分數的方差)。

從上可知,觀測分數中誤差越大,則信度越低。我們強調要選擇信度高的變量作為分析對象,就因為這些變量的誤差較小,數據質量較為可靠。

提高測量信度的前提是不能改變所測目標的屬性特征。這個問題涉及測量理論的另一基本概念:測量的效度,限于篇幅,這里不再展開。而在保證效度的基礎上提高測量信度的基本方法之一是提高測量工具的精度。例如,測量身高時,相比于精確到分米的量尺,精確到厘米的量尺其測量結果的信度來得更高一些。在教育學與心理學研究領域中,通常用增加問卷(或測試)的項目數量與細化項目得分的等級來提高測量信度。但是,增加項目數量的方法也有弊端,容易引起被試疲勞從而影響答題質量。一般來說,心理量表中子維度的項目數若能控制在10個左右較為妥當,至多不能超過20個。教育學測量使用的項目數可以比心理測量多一些。方法之二是選用相關度較高的項目。在項目數量不變的前提下,項目之間的相關程度越高測量的信度也越高。但是,往往項目間的相關高了,測量范圍就會變窄,從而降低了測量準確性,即影響了測驗效度。例如,在語文能力測驗中只有詞匯理解的內容,題量再多,信度再高,也無法涵蓋全部語文能力;相反,若測驗包含詞匯、語法、閱讀理解、作文等多個類別,雖然每類只有數個題目,可能會在一定程度上降低每類的信度,但是語文能力測試的效度卻會得到很大提高。

另外,除了提高量表本身的信度之外,還要注意測量的外部因素影響。例如,在英語聽力測驗中,外界的噪聲會影響被試的解答結果。如果考場的隔音條件差異較大時,就會大大降低聽力測驗結果的信度。再如,被試作答的意愿高低也會影響數據的質量,如考試中的抄襲、作弊、作答態度不認真等。甚至,變量采集的順序也會對數據結果造成差異。例如,在一項學生能力調查中有語文、數學、英語三個能力測驗,如果一部分被試解答的順序是數學、英語、語文,另一部分被試解答的順序是英語、語文、數學的話,兩組被試中數學能力相同的被試其數學成績可能因為疲勞出現差異,若將這兩組的數學分數放在一起分析可能會得出不正確的結論。

綜上所述,為了保證多元統計分析得到正確的結論,確保數據質量是最為基礎的一環,必須控制好抽樣、采集工具、外部條件等諸多環節(參見圖1.2)。

圖1.2 影響統計推論可靠性的因素

主站蜘蛛池模板: 遂宁市| 镇原县| 五原县| 亚东县| 广灵县| 临沭县| 犍为县| 北票市| 沙河市| 峨山| 揭西县| 开鲁县| 小金县| 育儿| 绍兴县| 陆川县| 重庆市| 伊宁县| 海伦市| 江陵县| 黄大仙区| 徐汇区| 澄迈县| 新乐市| 桐乡市| 凌云县| 陕西省| 罗定市| 陕西省| 时尚| 通榆县| 陆河县| 米易县| 香格里拉县| 滦平县| 萍乡市| 肥西县| 庐江县| 罗源县| 盐山县| 读书|