- 計量文體學導論
- 施建軍
- 5712字
- 2019-08-16 17:36:43
第五節 特征和文體的相互信息
前文我們介紹了很多可以用來描述作家寫作風格的特征,如句子長度、詞的長度、功能詞的使用習慣等等。這些寫作特征是語言學家和文體研究學者根據自己長期對作家寫作特點和這些因素之間的關系的考察而得到的一種經驗積累,是一種文體的經驗特征。人們對這種經驗特征進行統計分析可以有效地判別出不同作家的文章,但是這種經驗特征有一個明顯的缺陷,就是帶有鮮明的主觀色彩。這種主觀色彩反映在不同的人對這種經驗特征的選擇存在著研究者自己的個性,沒有客觀的衡量標準。而且人們無法從理論上證明這些特征就一定能夠反映作家的寫作特點。另外,這種經驗特征的選擇受到個人因素的限制,在選擇范圍上會有一定的局限性。即同樣一種類型的特征除了這個學者羅列出來的部分以外,還有可能存在其他的一些情況。比如陳大康在研究《紅樓夢》作者問題時提出了47種文言虛字的使用情況可以描述作者的文體,除了這47種文言虛字以外是否還存在和作家文體相關的虛字,這47個文言虛字在表現作家文體特征方面所發揮的作用是否一樣,哪些和作家文體的關系更加緊密,哪些和作家文體的關系不太緊密,這些問題用傳統的、經驗的方法是不容易給出答案的。
基于以上情況,統計學家試圖用統計的手段來發現與作家寫作風格特征相關的因素。這些方法手段中使用比較廣泛的有相互信息。其實相互信息的方法主要應用在基于內容的文本歸類上,并且取得了非常好的效果。但是基于內容的文本歸類和作家文體的歸類雖然可以使用同樣的數學模型但是其思路是相反的。基于內容的文本歸類需要挖掘與文章內容相關的因素,根據這些因素將內容相同或者相近的文章歸類到一起,而基于文體的作家歸類需要挖掘與文章內容無關、只與作家寫作特征相關的因素,然后根據這些因素的統計特征區分不同作家的作品。盡管相互信息在基于內容的文章歸類和面向作家分析的文體歸類上都得到了廣泛的應用,但是由于國內計量文體學研究比較薄弱,所以在文體分析上使用相互信息進行作家寫作風格分析研究的成果還不是很多。
2.5.1 相互信息的定義
相互信息是信息論里面的一個概念,用它可以考察衡量兩個隨機變量之間關系的緊密程度。對于隨機變量x和隨機變量y,其相互信息的定義如下:

我們從按照內容進行文檔歸類的角度,可以對相互信息的性質做出很好的解釋。假設我們有一批文章需要按照不同的領域對其進行歸類,比如這些領域有:汽車、IT、軍事、醫學等。通過對這些領域的文章特點研究我們發現,某一特定領域的文章中,和該領域相關而和其他領域無關的專業詞匯使用會非常頻繁,其他領域的專業詞匯則不會出現。我們假設X為一個醫學方面的專業詞匯,Y表示醫學類文章。P(X,Y)代表在我們考察的若干文章中,醫學專業詞匯X出現了的醫學類(Y)文章所占的比例,P(X)代表詞X出現的文章(包括醫學類和非醫學類)在我們考察的所有文章中所占的比例,P(Y)為醫學類文章Y在我們所考察文章中占的比例。我們知道如果詞X和醫學沒有太大關系,那么,詞X可能不只是在醫學類文章中出現,在其他領域的文章中也會出現。根據概率知識,這時詞X在醫學類文章中出現的概率,與其在其他領域的文章中所出現的概率差不多,詞X和醫學領域沒有關系,即相互獨立,那么下面的式子成立:

這種情況下,公式2.13變成:

也就是當詞X和醫學領域的文章沒有關系時,x和y的相互信息為0。這是符合我們的主觀經驗的。
當詞X和醫學領域關系密切,即其他內容的文章中X很少使用,而在醫學領域的文章中經常出現,這時P(x,y)>p(x)p(y),由公式2.13可知這時MI(x,y)>0。由于非醫學文章中X很少使用,而醫學類文章中卻經常使用,這表明詞X與醫學有非常密切的關系,可以認為它是醫學內容的一個表現。反之,如果一般情況下X使用比較多,而醫學類文章中的使用情況并沒有超出通常情況,即P(x,y)接近p(x)P(y),那么MI(x,y)接近0,由此可見,X是任何文章中都可以出現的詞匯,和文章的內容關系不大。
根據以上分析我們可以得出結論,當相互信息MI(x,y)的值為零時,詞X的使用情況和文章內容是相互獨立的、無關的,不能夠反映文章內容;當相互信息MI(x,y)的絕對值越大時,詞X的使用情況和文章內容的關系越緊密。我們可以根據詞匯和文章內容的這種相互信息MI值的大小來提取按內容進行文章分類的依據。由此可見相互信息為我們獲取基于內容文章分類的特征提供了科學方法和武器。
根據以上論述,相互信息似乎和面向文體分析的不同作家文章的歸類沒有太大關系。因為作家的寫作風格不可能反映在專業詞匯上面。同一個作家可能寫出領域和內容都不相同的文章,由于內容不同,這些文章中和內容有關的詞匯可能各不相同,也就是與文章內容相互信息值很大的詞匯即便是出自同一人之手的不同文章也是各不相同的,我們不能夠因為MI值很大的詞匯各不相同就否定這些文章是同一個人寫的。由此可見與文章內容MI值很大的詞匯是文章內容的反映而不是作家寫作風格的反映。那么,什么樣的詞匯才是作家寫作風格的反映呢?MI值在作家寫作風格的分析上是否有用呢?
2.5.2 相互信息在作家寫作風格抽取上的應用
根據上面的分析,我們知道與文章內容MI值大的詞匯和文章的內容有密切關系。而同一個作家可以寫出多部內容不同的作品,每一部作品中與文章內容MI值大的詞匯是各不相同的。但是,同一個作家的多部作品,盡管其內容不同,但是其反映在這些作品中的寫作風格應該是相同的。不同的內容可以在與文章內容相互信息(MI值)大的詞匯上面體現出來,而相同的寫作風格又體現在什么上面呢?
我們通常認為,文章中存在兩類因素,一種是和內容有關的因素,這主要表現在詞匯上面,如特定領域的專業詞匯,這些詞匯具有特定含義,文章內容可以說是由這些詞匯的詞義組合起來的。文章中的另一種因素就是作家的寫作風格因素,這種因素和內容無關。一般地講,無論作品的數量有多少、內容多么不一樣,只要是同一作家的作品,其寫作風格總是一致的。這種風格應該主要反映在與文章內容無關的詞匯以及與文章內容無關的其他因素上面。這些因素如何挖掘出來是進行計量文體學研究的關鍵課題。
這里我們探討一下與文章內容無關的詞匯與作家作品之間的相互信息(MI值)有沒有特點。如果能夠找到特點,那么以相互信息(MI值)為依據找出來的這些詞匯是不是與內容無關的詞匯,能不能夠將其作為作家文體風格特征呢?
詞匯和作家作品之間相互信息的計算
之所以使用“詞匯和作家作品之間的相互信息”,是因為根據上文我們知道,按照公式2.13計算的相互信息可以描述詞匯和作品內容之間的關系,但是尚未確定如何用相互信息描述詞匯和作家寫作風格之間的關系。我們這里假設作家的文體風格可以用相互信息(MI值)作為依據來獲得,那么怎樣利用相互信息這個工具呢?根據相互信息的知識,我們知道相互信息是描述語言表達和文章之間相互關系緊密程度的。相互信息(MI值)越大就說明這個語言表達和文章內容越緊密,和其他文章內容的關系不大。反過來,相互信息越小,說明這個語言表達和文章內容關系不大。那么,這些和文章相互信息(MI值)很小、和文章內容關系不大的語言表達是否和作家的文體風格相關呢?如果能夠證明這一點,那么我們就可以利用相互信息來獲取作家或者作品的文體特征了。下面我們來說明這個問題。
現有作家A和其他作家的作品共N篇,單詞WORD的出現情況如下:

X11表示作家A的作品中出現單詞WORD的篇數
X10表示其他作家的作品中出現單詞WORD的篇數
X01表示作家A的作品中沒有出現單詞WORD的篇數
X00表示其他作家作品中沒有出現單詞WORD的篇數
根據公式2.13和上表內容我們可以求得:
P(WORD,作家A)=X11/N
P(WORD)=(X11+X10)/N
P(作家A作品)=(X11+X01)/N
那么作家A的寫作特點和單詞WORD的相互信息MI可以有如下式子計算得到:

作家用字和作家作品之間相互信息分析
根據上述單詞和作家寫作特點相互信息的計算方法,我們以沈從文散文為例,考察作家用字與作家作品之間相互信息的特點,從而探討如何以相互信息為依據提取代表作家寫作特點的詞匯并將其作為判別作家寫作風格的特征向量的問題。為了簡便起見,這里我們主要計算比詞小的單位——漢字和作家作品之間的相互信息。
我們選取了沈從文的《爐邊》《鳳凰觀景山》《往事》《玫瑰與九妹》《生之記錄》《我的小學教育》《湘西常德的船》《湘西白河流域幾個碼頭》《湘西辰溪的煤》《湘西常德的船》《湘西瀘溪浦市箱子巖》《湘西沅陵的人》《夜漁》《湘西沅水上游幾個縣份》《在私塾》等15篇散文。按照文章的長短將這15篇散文編成10組,每一組文字加起來長度大體差不多。
另外我們還選取了林語堂、朱自清、老舍、池莉、韓少功、蘇童、王蒙、賈平凹、余秋雨等9位作家共250萬字的作品作為其他作家作品參與測試。這9位作家的作品的分組方法和沈從文作品的分組方法一樣。最后我們將這些作品分成了85組。
在統計10組沈從文的作品和其他9位作家的85組作品用字的情況時,我們使用了《漢日語料庫通用分析工具》。首先我們利用該工具的NGRAM抽取統計功能進行了這95組作品中漢字的使用情況調查。NGRAM一般是指文章中相鄰的N個漢字組成的漢字串。當N=1時,實際上就是單個漢字,這時的NGRAM頻度就是單個漢字的頻度。統計的結果是,這10位作家的作品中共使用了4926個不同的漢字。在得到每組作品的漢字使用頻度后,我們使用該工具的字詞分布功能,統計了每一個漢字在各組中的分布情況。圖2.13為其中的一部分。
用《漢日語料庫通用分析工具》的分布統計功能我們得到的每一組作品中漢字出現的頻度。根據相互信息的計算公式,每一個漢字出現的作品篇數是計算相互信息時所必須要知道的。因此我們必須對上述數據進行進一步調整。為此我們將95組作品中用字的分布情況數據調入EXCEL做進一步調整和分析。這種調整主要是適應相互信息的計算需要,將某一個漢字在某一組中出現的情況用0和1來表示,如果某一個漢字在某一組作品中出現的頻度大于0,我們認為這個漢字在這組作品中出現了,其出現情況就設為1;否則設為0。圖2.14為用EXCEL調整后的情況。

圖2.13 樣本中特征漢字的出現情況

圖2.14 樣本中特征漢字是否出現
下面以漢字“阿”為例,求沈從文的作品和“阿”的相互信息。

實際上,我們可以用EXCEL很方便地統計出每一個漢字的X11、X01、X10、X00。

圖2.15 特征漢字和樣本的相互信息
根據公式(15),漢字“阿”和沈從文寫作特點的相互信息可按如下方法計算:

同樣道理我們也可以利用EXCEL計算出所有的4926個漢字和沈從文作品的相互信息。圖2.15是其中的一部分。
這里我們根據相互信息的值對漢字進行了排序,表中出現的都是相互信息最高的漢字。從表中可以看出,相互信息較高的這些漢字都是一些生僻的漢字,這些漢字由于具有特定的含義,因此和文章的內容關系比較大。比如“滕”字,沈從文在遺作《鳳凰觀景山》中提到的一個人姓“滕”,叫滕老四。如果不是提到這個人,沈從文也不會用“滕”字。因此這個漢字是和文章的內容有關的,和沈從文的寫作風格沒有太大關系。由此我們也可以看出,相互信息值最高的這些漢字是和文章的內容有關的。
我們再考察一下相互信息值等于0的漢字的情況。圖2.16是相互信息值為0的部分漢字。

圖2.16 和樣本相互信息為0的漢字情況
在我們的實驗中相互信息值為0的漢字共出現了101個,如下:


其中10位作家的95組作品中均出現的漢字有82個,占所有相互信息為0的漢字總數的81%。具體如下:

由于這些漢字在10位作家的95組作品中均出現,而且這95組作品內容均不相同,因此我們可以認為這82個漢字的使用不依賴于文章內容,它們不是文章內容的主要表達詞匯。另一方面,對這些漢字的詞性進行歸類后發現,這些漢字中絕大多數是助詞、連詞、代詞、介詞、副詞等功能詞匯,這些詞匯是任何文章中不可缺少的,其意義比較虛。另外也有一部分動詞、形容詞甚至名詞,但是這些實詞的意義也比較虛,也是和文章內容聯系不很緊密的。由于這些詞匯和文章內容沒有太大關系,因此可以排除這些詞在文章的使用情況會受到文章內容的影響。那么同一作家的不同作品對這些詞的使用是否具有相同特點,而不同作家的作品其使用情況是否不一樣,也就是說這些詞是否承載著作家的寫作風格特征呢?為了說明這個問題,我們選取三位作家沈從文、林語堂、朱自清的作品來進行考察。限于篇幅限制,我們只考察“的、地、得、過、了、著”等六個助詞。我們將這六個助詞放在坐標系的橫軸上,用坐標系縱軸表示使用頻率,單位用千分率表示。這樣可以描繪出三位作家使用這六個助詞的風格曲線圖。首先我們將這三位作家使用這六個助詞的頻率分別統計出來。由于三位作家的作品分別分成了若干組,沈從文為10組,林語堂為10組,朱自清為9組。我們統計出了每一個助詞在每一組的使用頻率,根據這些頻率值計算出了每位作家使用這幾個助詞的平均頻率。具體如下表:
表2.17 三位作家作品樣本助詞使用情況

根據這些值以及上述橫軸的規定我們可以描繪出三位作家使用這六個助詞的風格曲線圖如下:

圖2.17 三位作家助詞分布情況
根據上面三位作家的風格曲線圖,我們可以發現三位作家在“的、了、著”等三個助詞的使用上有著明顯的差別。沈從文“的”字的使用頻率最低,朱自清“的”字使用頻率最高。數值來看,朱自清使用“的”字的頻率比沈從文高將近13個點,與沈從文和朱自清相比林語堂卻不怎么喜歡使用“了、著”這兩個助詞。綜合這六個助詞的使用情況,可以很明顯地看到這三位作家寫作風格上的差異。
根據以上分析,相互信息為0、分布較廣、詞義比較虛的詞匯,雖然寫作時大家都離不開他們,但是,每個人在使用這些詞匯時習慣是不一樣的,有的使用得多,有的使用的少??梢哉f這些詞匯使用頻率,反映了作家寫作風格上的差異。由此我們也可以認為相互信息在提取作家寫作風格特征時是能夠發揮作用的,只不過和基于內容的文本分類相反,在進行作家風格特征分析時,我們需要提取相互信息為0的語言單位。
本章主要介紹了計量文體學研究中經常使用的一些統計學概念和知識。開展文體計量研究的關鍵是尋找能夠反映文體特征的語言表達形式,這也是文體計量研究中人文學者發揮自己特長的地方。這些文體特征的分析和探尋除了可以使用人文研究傳統的方法外,也可以利用本章所介紹的一些統計學知識和工具,如頻率、方差、相關系數、相互信息等。當然這些知識和工具隨著統計學理論的發展會層出不窮。這里介紹的只是一些最常用的和最基礎的。