- 突發公共事件網絡輿情演化研究
- 陳璟浩
- 2657字
- 2020-04-22 12:45:48
1.3 突發公共事件網絡輿情的分析方法
1.3.1 生存分析方法
1)生存分析方法概述
生存分析(survival analysis)是利用統計學的理論和方法解決與特定事件發生時間相關問題的一門學科,其研究的主要內容如下所述。
描述生存過程:研究人群生存狀態的規律,如生存時間的分布特點,計算某個時間點的生存率、生存率曲線的變動趨勢等。
生存過程的影響因素分析:比較不同亞人群的生存狀況,進行兩組或多組生存率的比較。以了解哪些因素會影響目標人群的生存過程,這是生存分析方法最重要的研究內容。
(1)生存分析的數據類型。
生存分析所要分析的數據稱為生存數據,用于度量某事件發生前所經歷的時間長度。事件可以是產品的失效、疾病的發生、生命的死亡等。按照觀測數據所提供的信息不同,生存數據可以分為三大類。
完全數據:完全數據是指提供了完整信息的數據,比如研究某種產品的失效時間,如果有一個樣品從進入研究直到失效都在我們的觀測之中,就可以得到其失效的具體時間。那么這個數據就是一個完全數據。
刪失數據:由于有時候生存分析獲取數據的時間很長,比如慢性病治療效果的隨訪,中間可能患者由于遷移、不愿意繼續合作等各種原因退出了隨訪,或者研究單位由于人力、物力、財力等方面原因在某個時刻決定中止隨訪,那么這時收集的數據就是不完整的。這些數據就為刪失數據。SPSS要求在進行生存分析時每個變量都必須再設置一個相應的示性函數,用以說明這一數據是完全數據還是刪失數據。通常,完全數據示性函數取值為1;刪失數據,示性函數取值為0。
截尾數據:截尾數據和刪失數據一樣,所提供的信息都是不完整的信息,但它和刪失數據不同的是所提供的是與時間有關的條件信息。例如,在研究60歲老人發生意外傷害的概率中,那么這些數據必須為截尾數據,即進入研究的人的年齡都應大于等于60歲。
(2)生存分析的方法。
生存分析的方法很多,按照是否使用參數來分,可以分為非參數方法、半參數方法和參數方法。
非參數方法:非參數方法是生存分析中最常用的一種方法,當被研究事件沒有很好的參數模型可以擬合時,通常可以采用非參數方法研究它的生存特征。常用的非參數模型包括生命表分析和乘法極限法(Product Limit Method, Kalpan-Meier方法)。
參數方法:假如已經證明某事件的發展可以用某個參數模型很好地擬合,就可以采用參數分布方法進行該事件的生存分析。在生存分析中常用的參數模型有指數分布模型、對數正態分布模型、威布爾分布模型、對數邏輯斯特分布模型等。
半參數方法:半參數方法是目前比較流行的生存分析方法,有研究表明它比參數模型靈活,比非參數模型易于解釋結果。在生存分析使用的半參數模型也被稱為Cox模型,全稱為Cox半參數比例危險率模型。在使用Cox模型時,需要指定若干個協變量,然后研究協變量的個數的生存狀況。
2)分析方法簡介
通過考察生存分析的各種方法,結合本研究案例庫中所收集到的突發公共衛生事件網絡輿情數據,本書主要采用生存分析中的Kaplan-Meier和Cox方法對突發公共事件網絡輿情演化過程進行定量研究。其中Kaplan-Meier方法用于評估突發公共事件網絡輿情的生存時間分布,Cox回歸用于分析突發公共衛生事件網絡輿情演化中的影響因素對輿情發展過程的影響。兩種方法具體分析過程介紹如下。
(1)Kaplan-Meier方法。
Kaplan-Meier過程采用乘積極限法來估計生存率,同時其還可以對一個影響因素進行檢驗,是最為基本的一種生存分析方法。該方法建立在下面兩個基礎上:其一為對每一個事件發生的時間點的條件概率所做的估計,其二為這些概率的范圍,然后使用這兩方面的信息來估計每一個時間點的生存概率。
在Kaplan-Merier分析中,得到的累計生存函數的估計值為

式中,ti為第i個事件發生時刻,di為在時刻ti發生事件的個體數,yi為在時刻ti面臨風險的個體數。
生存函數的p分位點xp為

常用的分位點為四分位點和二分位點。
(2)Cox回歸分析
Cox回歸又被稱為比例危險率模型(Proportional Hazard Model),是生存分析中的一個重要模型,可以分析生存時間無一定規律,且具有完全或截尾狀態的諸多危險因素之間的定量關系。Cox回歸分析能夠充分利用這些信息進行多因素分析,其適應性比較強,是生存分析中的半參數方法。
Cox比例回歸危險度模型是廣義的回歸模型,它假定危險率函數是一個帶有若干個協變量的隨機變量。Cox回歸分析的比例危險率模型為

式中,x1, x 2, …, xm是危險因素(covariates,協變量),可以是定量、定性或等級資料;β1, β2, …, β是回歸系數,由樣本估計而得;h0(t)是基準危險函數。βm>0表示該協變量是危險因素,越大使生存時間越短;βm<0表示該協變量是保護因素,越小使生存時間越長。
在危險率函數沒有分布和圖形的假設情況下,上面的模型暗示有兩個假定:一是危險率函數與獨立協變量之間有一個對數線性關系;二是危險率函數與協變量的對數線性函數之間存在乘積關系。在實際應用中,假定給出獨立協變量兩組不同的觀測值,那么對應的危險率函數的比值與時間無關,而是等于一個常數,該常數為兩組協變量線性函數的指數之比。這就是比例危險率模型中的“比例”的含義,即

Cox生存分析需要滿足兩個條件:①其具有一般回歸模型的特征,要盡量減少協變量之間的交互作用(共線性)。②滿足Cox生存模型的比例風險假設,即要求協變量的影響效應不隨時間變化而改變,如果假設條件不滿足,則應使用時間依存協變量的Cox回歸模型。
1.3.2 焦點事件分析框架
焦點事件分析框架包含了一些定量和定性的分析方法,以及用于幫助分析相關焦點事件的研究資料。有助于了解機構和組織對焦點事件的反應。
為了使分析簡單易行,該分析框架包含兩個部分,第一部分主要分析有關新聞媒體對焦點事件報道的材料,這樣有助于了解焦點事件是如何影響媒介議程的。通常在焦點事件發生后,新聞媒體會非常迅速地對焦點事件進行報道。在這一階段,新聞媒體對焦點事件的報道主要集中于事件本身,包括事件造成的影響、損失等。第二部分需要分析政府、組織和管理機構對焦點事件的長期反應。在這一階段,焦點事件的罕見性、影響因素的作用范圍,以及媒體對事件的報道量和政府對焦點事件處理的結果,都會影響社會精英和相關組織對事件的態度。他們同時也會根據事件的處理結果而調整他們自身的態度。
通常來說,焦點事件的發生到結束會經歷一個較長的時間段,且焦點事件分析框架的兩個部分是緊密結合的。因為,通過歷史數據顯示,在焦點事件新聞高峰后三至六個月,才會迎來相關管理部門對事件的反應和處理。這是由媒體和管理部門本身的職責和特性造成的,因為媒體在大量報道焦點事件后,將會關注新的熱點,而管理機構要根據媒體的反應、社會輿情和現有的法律法規來對焦點事件采取行動。所以整個分析過程需要對焦點事件的發展進行密切追蹤,并充分考慮框架中各種因素的特征和相互影響。