- SAS統計分析教程
- 胡良平編著
- 4051字
- 2019-03-01 11:35:13
4.12 常見多因素實驗設計一元定量資料協方差分析
4.12.1 問題與數據
【例4-15】某研究者欲研究3種飼料對動物體重增長的影響,按照某些重要非實驗因素將36只大白鼠均分成12個隨機區組,再將每個隨機區組中的3只大白鼠隨機地分入3個飼料組,各組進食量與所增體重的測定結果如表4-18所示,試分析3種飼料對大鼠增重效果間的差別是否有統計學意義。
表4-18 3組白鼠的進食量X(g)與所增體重Y(g)的測定結果

【例4-16】某研究者將60只雄鼠隨機地分成6組,分別飼以不同種類食物及成分的蛋白質,并記錄食物消耗量X(g)、增重體重Y(g),實驗結果如表4-19所示。試分析不同種類食物及蛋白質成分對雄鼠的增重效果之間的差異有無統計學意義。
表4-19 6組雄鼠的食物消耗量X和所增體重Y的實驗結果

【例4-17】某研究者欲研究兩種麻醉藥物的效果,將20例病人隨機地均分為兩組,一組用硫賁妥鈉,另一組用異丙酚。分別記錄20例病人用藥前、氣管插管后1 min、3 min、5 min、7 min、9 min的收縮壓變化,實驗結果如表4-20所示。試分析采用這兩種藥物麻醉的兩組患者收縮壓均值的差異有無統計學意義。
表4-20 兩組患者收縮壓的觀察結果

4.12.2 對數據結構的分析
在例4-15資料中,研究者先根據某些重要非實驗因素將大白鼠分成12個隨機區組,然后再隨機決定每個組中的3只大白鼠分別食用三種飼料之一。實驗因素為“飼料種類”,區組因素為“某些重要非實驗因素組合”,觀測指標為“體重增加量”,因而資料類型應為隨機區組設計一元定量資料。但在分析時,需注意“進食量”的影響,此變量為協變量。
在例4-16資料中,涉及兩個實驗因素、食物種類及蛋白質成分。前者有3個水平:牛肉、谷類及豬肉;后者有兩個水平:高蛋白和低蛋白。因為所有實驗條件為這兩個因素各水平的全面組合且因素間無主次之分,所以資料應為兩因素析因設計定量資料。但是,由于食物消耗量這個定量影響因素的存在,它是一個極為重要的非實驗因素,應以其為協變量。
在例4-17資料中,對每一個病人來說,在氣管插管后5個時間點上分別測量其收縮壓,說明“時間”因素是一個重復測量的因素。此外,還有一個實驗因素“藥物種類”(硫賁妥鈉或異丙酚),因而這是具有一個重復測量的兩因素設計定量資料,應選用具有一個重復測量的兩因素設計定量資料方差分析來處理。同時,由于研究者記錄了所有病人麻醉前的收縮壓值,所以最好以此為“基礎值”或協變量的取值。
4.12.3 分析目的與統計分析方法的選擇
對于例4-15資料,資料類型為隨機區組設計一元定量資料。但是,由于在分析時還要考慮定量影響因素“進食量”的影響,需選用隨機區組設計定量資料一元協方差分析。
對于例4-16資料,資料類型為兩因素析因設計一元定量資料。但是,由于食物消耗量這個定量影響因素的存在,分析時應以食物消耗量為協變量,采用兩因素析因設計一元定量資料的協方差分析處理此資料。
對于例4-17資料,資料類型為具有一個重復測量的兩因素設計一元定量資料。由于研究者記錄了所有病人麻醉前的收縮壓值,所以最好以此為“基礎值”,采用具有一個重復測量的兩因素設計一元定量資料的協方差分析來處理數據。
4.12.4 SAS程序
對例4-15資料進行隨機區組設計定量資料一元協方差分析,SAS程序名為SASTJFX4_15.SAS。

SAS程序中第1步為建立數據集,group代表“隨機區組”,forage代表“飼料種類”,appetite代表“進食量”,increment代表“體重增加量”。第2步為調用GLM過程分析協變量與實驗因素之間的交互作用是否有統計學意義,目的是了解各組的總體回歸斜率是否相等。第3步為調用GLM過程進行隨機區組設計定量資料的協方差分析。model語句“/”后的solution選項用來給出模型中固定效應的解,lsmeans語句可給出響應變量increment的修正均數,并給出因素各水平兩兩比較的結果。lsmeans語句“/”后的stderr用來輸出因素各水平組修正后響應變量的標準誤差及修正均數與0比較的檢驗結果,tdiff和pdiff用來輸出因素各水平組修正均數兩兩比較的t值和P值。
對例4-16資料進行兩因素析因設計一元定量資料的協方差分析,SAS程序名為SASTJFX4_16.SAS。

SAS程序中第1步為建立數據集,protein代表“蛋白質成分”,food代表“食物種類”,appetite代表“食物消耗量”,increment代表“增重體重”。第2步為調用GLM過程分析協變量與兩個實驗因素之間的交互作用是否有統計學意義,目的是了解各組的總體回歸斜率是否相等。第3步為調用GLM過程進行析因設計定量資料的一元協方差分析。
對例4-17資料進行具有一個重復測量的兩因素設計一元定量資料的協方差分析,SAS程序名為SASTJFX4_17.SAS。

SAS程序中第1步為建立數據集,drug代表“藥物種類”,patient代表“患者編號”,time0代表患者用藥前收縮壓值,time代表氣管插管后時間,y代表收縮壓值。第2步為調用GLM過程分析協變量與兩個實驗因素之間的交互作用是否有統計學意義,目的是了解各組的總體回歸斜率是否相等。第3、4、5、6步調用MIXED過程,分別采用VC、CS、AR(1)、SP(POW) 4種協方差結構模型對資料進行方差分析(此數據不宜采用UN協方差結構模型進行方差分析,因其迭代無法收斂,讀者可自行驗證)。第7步為建立宏shuju,以實現對數據集中已有變量value的更名,具體語法讀者可參考與本書配套的光盤上附錄1中第51章有關內容。第8、9步均用來實現對不同數據集的橫向合并。第10、11步均用來將數據集中的內容輸出到output窗口中。
4.12.5 主要分析結果及解釋
以下是對例4-15的分析結果,即程序SASTJFX4_15.SAS的輸出結果。

這是輸出結果的第1部分,用來考察資料是否滿足協方差分析的第2個前提條件—各組總體回歸斜率相等。查看上述結果可發現:appetite*forage對應的假設檢驗結果為F=0.34,P=0.7202;appetite*group對應的假設檢驗結果為F=2.25,P=0.1301。即appetite*forage和appetite*group均無統計學意義,可認為各回歸直線之間的斜率相等,所以滿足協方差分析的第2個前提條件。此方差分析表中其他各項主效應的假設檢驗結果讀者可不予參考。

這是輸出結果的第2部分,是對3個因素進行假設檢驗的結果。由各自對應的F值和相應的P值大小可判斷,進食量appetite(F=58.26,P<0.0001)、各隨機區組之間(F=3.23,P=0.0101)對響應變量increment的影響有統計學意義,3個飼料組(F=2.19,P=0.1369)觀測指標increment均數之間的差別無統計學意義。

這是輸出結果的第3部分,是模型中固定效應的解。對區組因素group和實驗因素飼料種類forage來說,均是其各自水平與參照水平(各因素最后一個水平,本資料為group12和forage3)進行均數比較的假設檢驗結果。例如forage1所在行對應的P值為0.5113,表示第1種飼料與第3種飼料之間的差別無統計學意義。在model語句中不存在交互項時,這個結果與隨后lsmeans語句給出的結果相同,可視為后者的一部分。因此,如果SAS程序中已有lsmeans語句,則可省去model語句“/”后的solution項。
Least Squares Means

這是輸出結果的第4部分,首先給出了3個飼料組響應變量increment的修正均數及其與0比較的假設檢驗的結果,無太大實際意義。然后,給出3個飼料組響應變量increment的修正均數兩兩比較的結果,3種飼料之間的差別均無統計學意義。
以下是對例4-16的分析結果,即程序SASTJFX4_16.SAS的輸出結果。

這是輸出結果的第1部分,用來考察資料是否滿足協方差分析的第2個前提條件—各組總體回歸斜率相等。查看上述結果可發現,appetite*protein對應的假設檢驗結果為F=0.66、P=0.4190,appetite*food對應的假設檢驗結果為F=0.03、P=0.9684,即appetite*forage和appetite*food無統計學意義。因為可認為蛋白質成分及食物種類這兩個定性變量內部的回歸斜率近似相等,所以滿足協方差分析的第2個前提條件。在此方差分析表中,對其他各項的假設檢驗結果,讀者可不予參考。

這是輸出結果的第2部分,是對協變量、兩個實驗因素及其交互作用進行假設檢驗的結果。由各自對應的F值和相應的P值大小可判斷,appetite、protein及food對響應變量increment的影響均有統計學意義,但protein*food無統計學意義。
Least Squares Means


這是輸出結果的第3部分,包括protein、food兩因素各水平下響應變量increment的修正均數、與0比較以及修正均數之間兩兩比較的假設檢驗結果。除food因素1水平和2水平(即牛肉與谷類)條件下響應變量increment的修正均數之間的差別無統計學意義外,其他各水平條件下響應變量increment的修正均數之間的差別均有統計學意義。

這是輸出結果的第4部分,首先給出了各實驗條件下響應變量increment的修正均數及它們與0之間的差異是否有統計學意義的假設檢驗結果,并對每種實驗條件進行編號(查看LSMEAN Number列);然后給出了6種實驗條件下響應變量increment的修正均數兩兩比較的結果。編號為1~3的實驗條件之間的比較是高蛋白條件下3種食物營養價值的比較:1(牛肉)與2(谷類)之間的差別無統計學意義(P=0.9043),1與3、2與3之間的差別均有統計學意義。編號為4~6的實驗條件之間的比較是低蛋白條件下3種食物營養價值的比較:4(牛肉)與6(豬肉)之間的差別無統計學意義(P=0.1465),4與5、5與6之間的差別均有統計學意義。說明高蛋白時,牛肉與谷類的營養價值接近且最高;低蛋白時,谷類的營養價值最高,牛肉與豬肉營養價值接近且最低。
以下是對例4-17的分析結果,即程序SASTJFX4_17.SAS的輸出結果。

這是輸出結果的第1部分,用來考察資料是否滿足協方差分析的第2個前提條件—各組總體回歸斜率相等。查看上述結果可發現,time0*drug對應的假設檢驗結果為F=0.02,P=0.8939,time0*time對應的假設檢驗結果為F=1.30,P=0.2692。time0*drug和time0*time無統計學意義,因為可認為藥物種類及時間這兩個定性變量內部的回歸斜率近似相等,所以滿足協方差分析的第2個前提條件。在此方差分析表中,對其他各項的假設檢驗結果,讀者可不必關注。

這是上述程序中ODS(Output Delivery System)輸出的結果。首先給出了4種協方差結構模型擬合本資料的有關情況,然后給出了協方差結構的有關信息(Covariance Parameters表示模型中待估計的協方差結構中參數的個數)。比較4種模型擬合資料情況的AIC、BIC數值,可發現AR(1)和SP(POW)兩種協方差結構模型擬合資料情況相同且較好。由于CS、AR(1)、SP(POW)三種協方差結構模型參數個數均為2,但后兩者擬合效果好于CS協方差結構模型,所以可不考慮CS協方差結構模型。現比較AR(1)和SP(POW)兩種協方差結構模型擬合資料的效果與VC協方差結構模型擬合資料的效果之間的差異是否有統計學意義。
χv2=?2 logLq?(?2 logLq+v)=611.4?565.8=45.6
因為由ODS輸出結果的第2部分可知,q=1,q+v=2,所以v=1。因χ0.05(1)2=3.84<45.6,故P<0.05。因為可認為不適合用VC模型取代AR(1)或SP(POW)模型,所以最后的結論應按AR(1)或SP(POW)協方差結構模型計算出來的結果來下。其假設檢驗結果為:

由上述結果可知:時間(time)因素各水平之間觀測指標的差異有統計學意義,而藥物種類(drug)、藥物種類與時間的交互作用(drug*time)均無統計學意義。因此,兩種藥物麻醉后患者的收縮壓狀況沒有差異。