- 計(jì)量文體學(xué)導(dǎo)論
- 施建軍
- 5150字
- 2019-08-16 17:36:42
第四節(jié) 文體特征的相關(guān)系數(shù)
我們?cè)谶M(jìn)行文體研究時(shí),常常會(huì)研究一個(gè)作家的寫作風(fēng)格是否會(huì)隨著年齡的變化而變化。假設(shè)我們?cè)诳疾熳骷业膶懽黠L(fēng)格時(shí)只考察他的斷句情況,也就是其標(biāo)點(diǎn)符號(hào)的間隔距離。我們來分析標(biāo)點(diǎn)符號(hào)平均間隔距離這一個(gè)表達(dá)寫作風(fēng)格的指標(biāo)和作家年齡之間有沒有關(guān)系,這就要用到相關(guān)系數(shù)。考察作家年齡與其作品的文體風(fēng)格時(shí)涉及兩個(gè)變量,即年齡變量以及標(biāo)點(diǎn)間隔的平均距離,我們需要求出這兩個(gè)變量之間的相互關(guān)系,統(tǒng)計(jì)學(xué)里的相關(guān)系數(shù)就可以表達(dá)這種相互關(guān)系。相關(guān)系數(shù)就是描述隨機(jī)變量之間相關(guān)程度的參數(shù)。
由于隨機(jī)變量存在連續(xù)型隨機(jī)變量和離散型隨機(jī)變量兩種類型,因此根據(jù)隨機(jī)變量的類型不同隨機(jī)變量間的相關(guān)系數(shù)的計(jì)算方法也不一樣。而且,相關(guān)系數(shù)有多種定義方法。
2.4.1 兩個(gè)連續(xù)型隨機(jī)變量的相關(guān)系數(shù)
應(yīng)用比較廣的連續(xù)型隨機(jī)變量的相關(guān)系數(shù)是皮爾遜相關(guān)系數(shù)。一般不做特別說明時(shí),相關(guān)系數(shù)通常就是指皮爾遜相關(guān)系數(shù)。其定義如下:
如果給定樣本數(shù)據(jù)為(x1,y1)(x2,y2)……(xn,yn),那么隨機(jī)變量x和y的相關(guān)系數(shù)r為:

rxy有以下重要性質(zhì):
1.-1≤rxy≤1。
2.當(dāng)rxy=0時(shí),說明隨機(jī)變量x和y不相關(guān),也就是x和y是相互獨(dú)立的;
3.當(dāng)rxy=1時(shí),x和y呈線性相關(guān)關(guān)系,是正相關(guān),y隨著x的增大而增大。
4.rxy=-1時(shí),x和y呈線性相關(guān)關(guān)系,是負(fù)相關(guān),y隨著x的增大而減小。
根據(jù)我們的日常經(jīng)驗(yàn),漢語中的“因”和“此”、“雖”和“然”、“所”和“以”這幾對(duì)字相伴出現(xiàn)的可能性很大,也就是說這幾對(duì)漢字使用時(shí)具有很強(qiáng)的相關(guān)關(guān)系;而“雖”和“因”、“雖”和“所”通常不在一起使用,彼此基本上是獨(dú)立的,相關(guān)關(guān)系可能不大。下面我們使用統(tǒng)計(jì)學(xué)的方法來分析這幾個(gè)漢字在統(tǒng)計(jì)上是否具有相關(guān)性。也就是說,我們能否可以從相關(guān)系數(shù)上證明上述假設(shè),能否驗(yàn)證我們生活經(jīng)驗(yàn)的可靠程度到底有多大。
為了說明這個(gè)問題,我們選取沈從文、朱自清、林語堂、蘇童、王蒙、余秋雨等六位作家的作品,共438167字作為樣本。各個(gè)作家樣本字?jǐn)?shù)具體情況如下:
表2.8 六位作家樣本總體情況

我們使用《漢日語通用語料庫分析工具》[4]從這些語言材料中統(tǒng)計(jì)了“因”“此”“雖”“然”“所”“以”等漢字出現(xiàn)的頻率。其結(jié)果如下表:
表2.9 六位作家樣本常用字頻率情況

根據(jù)這個(gè)結(jié)果,我們計(jì)算這些字之間的相關(guān)系數(shù)。過去由于計(jì)算工具的限制,人們只能夠利用公式2.11來手工計(jì)算這些漢字之間相關(guān)系數(shù),但是這是一個(gè)非常復(fù)雜的工作,僅這幾個(gè)漢字的相關(guān)系數(shù)的計(jì)算就可能花費(fèi)很長的時(shí)間和精力。現(xiàn)在計(jì)算機(jī)軟件技術(shù)非常發(fā)達(dá),我們用常見的電子表格軟件EXCEL就可以輕松地完成這項(xiàng)工作。下面簡要介紹用EXCEL計(jì)算“以”和“所”相關(guān)系數(shù)的具體過程:
第一步:將統(tǒng)計(jì)得到的數(shù)據(jù)輸入EXCEL中,如下圖:

圖2.2 常用字頻率導(dǎo)入EXCEL
第二步:選擇“以”和“所”的相關(guān)系數(shù)所要存放的單元格,我們這里選定“B8”。
第三步:在“B8”中輸入“=Correl(B2:B7,C2:C7)”。這里Correl就是根據(jù)公式2.11計(jì)算相關(guān)系數(shù)的函數(shù)。具體情況如下圖:

圖2.3 常用字頻率相關(guān)系數(shù)計(jì)算
第四步:輸入“=Correl(B2:B7,C2:C7)”并確認(rèn)無誤后,按回車鍵,“以”和“所”的相關(guān)系數(shù)0.960883就會(huì)在單元格B8中顯示出來。
用同樣的辦法,我們也可以算出“因”和“此”、“雖”和“然”的相關(guān)系數(shù)。結(jié)果如下圖:

圖2.4 常用字頻率相關(guān)系數(shù)計(jì)算結(jié)果
根據(jù)相關(guān)系數(shù)的性質(zhì),相關(guān)系數(shù)的區(qū)間為[-1,1]。當(dāng)相關(guān)系數(shù)為1時(shí),說明兩個(gè)漢字是完全相關(guān)的,即這兩個(gè)漢字有一個(gè)出現(xiàn),則另外一個(gè)肯定也出現(xiàn)。如果這兩個(gè)漢字的相關(guān)系數(shù)接近1時(shí),說明這兩個(gè)漢字有一個(gè)出現(xiàn)則另外一個(gè)出現(xiàn)的可能性很大,是高度相關(guān)的。從上圖我們看到,“以”和“所”,“因”和“此”的相關(guān)系數(shù)分別為0.96和0.93,非常接近1,這說明“以”和“所”,“因”和“此”是高度相關(guān)的。當(dāng)相關(guān)系數(shù)接近0時(shí),我們認(rèn)為這兩個(gè)漢字相關(guān)程度不大,也就是說這兩個(gè)漢字除彼此之外還經(jīng)常和其他漢字一起出現(xiàn),或者其中一個(gè)的出現(xiàn)不依賴于另一個(gè)是否出現(xiàn)。這里“雖”和“然”的相關(guān)系數(shù)為-0.13,非常接近0。“雖”和“然”的這個(gè)結(jié)果似乎和我們的經(jīng)驗(yàn)不太相符。但是通過進(jìn)一步調(diào)查我們發(fā)現(xiàn),在我們所調(diào)查的43萬多字的文章中“雖”共出現(xiàn)了253次,“然”共出現(xiàn)了1392次,“雖然”共出現(xiàn)了122次。也就是說,“雖”有131次是獨(dú)立出現(xiàn)或者是和“然”以外的漢字一起出現(xiàn)的,而“然”有1270次是獨(dú)立出現(xiàn)或者是和“雖”以外的漢字一起出現(xiàn)的。由此可見,“雖”和“然”出現(xiàn)的相關(guān)關(guān)系不太大。尤其是“然”,“然”出現(xiàn)但是“雖”不出現(xiàn)的情況占絕大多數(shù),可以說“然”對(duì)“雖”的依賴程度很低。從這個(gè)分析,我們也就不難理解“雖”和“然”之間的相關(guān)系數(shù)很小的內(nèi)在原因了。我們的經(jīng)驗(yàn)感覺為什么會(huì)出現(xiàn)這么大的偏差,這是因?yàn)椤半m然”是一個(gè)詞,這給我們?cè)斐闪艘粋€(gè)錯(cuò)覺,認(rèn)為“雖”和“然”相關(guān)程度很高,而忽視了這兩個(gè)字分別出現(xiàn)的情況。
實(shí)際上,字之間的這種相關(guān)關(guān)系和相關(guān)系數(shù)的大小還可以從根據(jù)上述三對(duì)漢字統(tǒng)計(jì)表中的頻率所描繪的二維圖清楚地看出。根據(jù)相關(guān)系數(shù)的性質(zhì),當(dāng)相關(guān)系數(shù)等于1或者-1時(shí),兩個(gè)變量是呈線性相關(guān),根據(jù)兩個(gè)變量的值所描繪的點(diǎn)圖就應(yīng)該是一條直線。如果兩個(gè)變量的相關(guān)系數(shù)接近1或者-1時(shí),那么所描繪的點(diǎn)圖就接近一條直線。否則根據(jù)兩個(gè)變量的值所描繪的點(diǎn)圖就是無規(guī)律的散點(diǎn)。這種表達(dá)兩個(gè)變量相關(guān)關(guān)系的點(diǎn)圖也可以利用EXCEL進(jìn)行描繪。下面以“所”和“以”的相關(guān)關(guān)系點(diǎn)圖描繪為例進(jìn)行說明。其具體步驟如下:
第一步:將數(shù)據(jù)輸入到EXCEL表中,如圖2.2。
第二步:選擇菜單中的“插入”→“圖表”,如下圖:

圖2.5 EXCEL繪制散點(diǎn)圖
第三步:選擇“散點(diǎn)圖”,進(jìn)入下一步。因?yàn)槲覀円谩耙浴焙汀八钡慕y(tǒng)計(jì)數(shù)據(jù)畫圖,所以在“數(shù)據(jù)區(qū)域”中輸入“B1:B7,C1:C7”,并且“系列產(chǎn)生在”選擇“列”。如下圖:

圖2.6 EXCEL散點(diǎn)圖輸入數(shù)據(jù)描述
第四步:設(shè)置圖表中橫坐標(biāo)和縱坐標(biāo)的情況以及圖表的名稱。點(diǎn)擊“系列”。由于我們所要描繪的是“以”和“所”的相關(guān)關(guān)系點(diǎn)圖,因此,在“名稱”輸入“=Sheet1!$B$1:$C$1”。如果我們用“以”的數(shù)據(jù)作為X軸數(shù)據(jù),用“所”的數(shù)據(jù)作為Y軸數(shù)據(jù),則在“X值”中輸入“=Sheet1!$B$2:$B$7”,在“Y值”中輸入“=Sheet1!$C$2:$C$7”,如下圖:

圖2.7 散點(diǎn)圖坐標(biāo)軸設(shè)置
第五步:進(jìn)入下一步,標(biāo)出圖表名稱、X軸、Y軸的名稱。“圖表標(biāo)題”我們可以設(shè)定為“以、所的相關(guān)關(guān)系圖”,和第四步的設(shè)定相對(duì)應(yīng)“數(shù)值(X)軸”設(shè)定為“以”,“數(shù)值(Y)軸”設(shè)定為“所”。如下如:

圖2.8 散點(diǎn)圖標(biāo)題和坐標(biāo)軸標(biāo)題設(shè)置
第六步:點(diǎn)擊完成,“以”和“所”相關(guān)關(guān)系的點(diǎn)圖就生成了。

圖2.9 EXCEL散點(diǎn)圖結(jié)果
采用同樣的操作方法,我們可以生成“因”和“此”、“雖”和“然”的相關(guān)關(guān)系點(diǎn)圖,如下

圖2.10“因、此”的散點(diǎn)圖

圖2.11“然、雖”的散點(diǎn)圖
從圖2.9和圖2.10我們看到,“因”和“以”的在上述文章中的使用次數(shù)基本上是隨著“此”和“所”的次數(shù)的增加而增加的,彼此之間有很強(qiáng)的依賴關(guān)系,這兩個(gè)圖中點(diǎn)的分布接近一條直線。而圖2.11中看不出“然”和“雖”的使用頻率之間存在這樣的比例關(guān)系,其點(diǎn)的分布也非常分散,根本看不出其間有直線關(guān)系。由此可見,漢字在實(shí)際使用中的這種相關(guān)關(guān)系也可以從其使用頻率的散點(diǎn)圖上分辨出來。
2.4.2 等級(jí)相關(guān)系數(shù)
等級(jí)相關(guān)系數(shù)(Spearman相關(guān)系數(shù))也叫秩相關(guān)系數(shù),或者順序相關(guān)系數(shù)。在上述求“因”和“此”兩個(gè)漢字在文章中是否相關(guān)時(shí),我們能夠統(tǒng)計(jì)到這兩個(gè)漢字在所有統(tǒng)計(jì)對(duì)象(文章)中的使用頻率。因此,我們可以用公式2.11進(jìn)行相關(guān)系數(shù)的計(jì)算。在現(xiàn)實(shí)生活中,有時(shí)我們不能夠知道每一個(gè)樣本的具體取值,但是,我們能夠知道樣本取值的大小順序。比如[5]:根據(jù)日本NHK廣播輿論調(diào)查所1978年對(duì)日本國民對(duì)各種花卉的喜愛程度的調(diào)查結(jié)果,日本男、女所喜愛花卉的順序如表2.10:
表2.10 日本人的花卉愛好情況

根據(jù)這個(gè)統(tǒng)計(jì)結(jié)果,我們可以用統(tǒng)計(jì)的方法考察日本男性和女性對(duì)花的喜愛是否接近。由于對(duì)每種花的喜愛程度沒法用量化的方法來表達(dá),但是上述調(diào)查按照喜愛程度的不同對(duì)不同的花卉排列了順序。下列公式給出了根據(jù)大小順序計(jì)算兩個(gè)隨機(jī)變量的相關(guān)系數(shù):

其中,n為樣本容量,Ri和Ri'分別為隨機(jī)變量在同一個(gè)樣本上的取值。
和連續(xù)型隨機(jī)變量相關(guān)系數(shù)一樣,當(dāng)兩個(gè)順序變量的相關(guān)系數(shù)r=1時(shí),表示兩個(gè)變量正相關(guān),而且是完全線性相關(guān),這時(shí)兩個(gè)變量的大小順序是完全一致的;當(dāng)r=-1時(shí),表示兩個(gè)變量是負(fù)相關(guān),這時(shí)兩個(gè)變量的大小順序是完全相反的。
這個(gè)例子中,日本男性和女性對(duì)花的嗜好的相關(guān)程度可以按照以下步驟進(jìn)行計(jì)算。
第一步:計(jì)算每一種花卉男、女愛好的順序差的平方,結(jié)果如表2.11:
表2.11 花卉愛好順序差計(jì)算

第二步:根據(jù)公式2.12,則

第三步:由于相關(guān)系數(shù)接近于0.9,所以我們可以認(rèn)為,日本男性和女性對(duì)花卉種類的喜好有很強(qiáng)的相關(guān)關(guān)系。
和連續(xù)型隨機(jī)變量相關(guān)系數(shù)的計(jì)算一樣,在計(jì)算等級(jí)相關(guān)系數(shù)時(shí)我們也可以借助EXCEL,以簡化相關(guān)系數(shù)的計(jì)算工作量。
2.4.3 相關(guān)系數(shù)在文體研究中的應(yīng)用
在文體研究中我們會(huì)經(jīng)常關(guān)注某一位作家在不同的創(chuàng)作年代其寫作習(xí)慣或者寫作風(fēng)格是否發(fā)生了變化,發(fā)生了怎樣的變化。一個(gè)作家的創(chuàng)作過程總是由不成熟逐步走向成熟,在走向成熟的過程中,除了其創(chuàng)作思想的逐步成熟外,其創(chuàng)作風(fēng)格也會(huì)走向成熟,產(chǎn)生屬于自己的獨(dú)特的文體風(fēng)格。當(dāng)然一個(gè)作家的獨(dú)特風(fēng)格是表現(xiàn)在多個(gè)方面的,但是僅從作家斷句的特點(diǎn)變化我們也可以觀察到這一點(diǎn)。下面我們利用相關(guān)系數(shù)來考察作家斷句習(xí)慣是否和其年齡相關(guān),以說明作家的寫作習(xí)慣變化和年齡之間的關(guān)系。
冰心是我國現(xiàn)代文壇上創(chuàng)作時(shí)間較長的一位著名作家。《冰心全集》中收錄的冰心最早的作品《二十一聽審的感想》發(fā)表于1919年8月25日的北京《晨報(bào)》。冰心直到1994年還在堅(jiān)持寫作,其創(chuàng)作年齡達(dá)到75年。因?yàn)檫@一點(diǎn),筆者以冰心為例利用相關(guān)系數(shù)考察作者寫作風(fēng)格是否與作者的年齡有關(guān)。
我們以海峽文藝出版社出版的《冰心全集》里收錄的冰心作品為分析對(duì)象。樣本采集分兩步進(jìn)行,首先采取等距離抽樣方法,每隔三年左右抽取一些作品,共抽取了29個(gè)樣本。由于這些作品篇幅長度不一,為了便于對(duì)比,使得每個(gè)樣本的字?jǐn)?shù)大體相等,我們又對(duì)冰心同一時(shí)期的作品進(jìn)行了合并,最后得到12個(gè)字?jǐn)?shù)約為5000字左右的樣本,我們以這12個(gè)樣本作品作為最后的分析對(duì)象。這12個(gè)樣本如表2.12:
表2.12 冰心不同時(shí)期作品樣本

我們還是以作者的斷句風(fēng)格為考察對(duì)象,主要考察作者隔多少字點(diǎn)一個(gè)標(biāo)點(diǎn)符號(hào)。即考察標(biāo)點(diǎn)符號(hào)和標(biāo)點(diǎn)符號(hào)之間的距離。實(shí)際上,一個(gè)作家的任何一部作品,其標(biāo)點(diǎn)符號(hào)之間的距離有很多種情況,這些情況我們可以用距離的分布來描述。我們這里主要分析作家每一個(gè)創(chuàng)作時(shí)期其標(biāo)點(diǎn)符號(hào)的平均距離是否會(huì)隨著其創(chuàng)作年代發(fā)生變化,也就是其標(biāo)點(diǎn)符號(hào)的使用風(fēng)格是否和年齡有關(guān)。冰心這12個(gè)時(shí)期的作品的標(biāo)點(diǎn)符號(hào)距離分布如表2.13:
表2.13 冰心不同時(shí)期作品標(biāo)點(diǎn)間隔情況


表2.13中,第一列是冰心作品中標(biāo)點(diǎn)符號(hào)間隔情況,從間隔1個(gè)字點(diǎn)一個(gè)標(biāo)點(diǎn)到間隔126個(gè)字點(diǎn)一個(gè)標(biāo)點(diǎn)的情況都有,只不過每一篇文章各種情況出現(xiàn)的次數(shù)不同。第二列以后的數(shù)字表示每一種間隔距離在本部作品中所占的比例。也就是每一種間隔距離在不同作品中的分布情況。從表2.13我們可以看出,標(biāo)點(diǎn)符號(hào)超過26個(gè)字的情況,在冰心的前期作品中基本不出現(xiàn)。也就是說,早期作品中,冰心點(diǎn)標(biāo)點(diǎn)符號(hào)的習(xí)慣不可能超過26個(gè)字。1962年以后這種情況才開始多了起來。因此從這個(gè)表上我們也可以粗略地看出,冰心點(diǎn)標(biāo)點(diǎn)符號(hào)間隔的距離隨著年齡的增長而越來越長。這種相關(guān)我們用等級(jí)相關(guān)系數(shù)就可以看得更加清楚。下面我們計(jì)算冰心每個(gè)時(shí)期作品標(biāo)點(diǎn)符號(hào)之間平均距離和作品創(chuàng)作年代之間的等級(jí)相關(guān)系數(shù)。
從表2.13我們可以計(jì)算出上面12個(gè)創(chuàng)作時(shí)期每個(gè)創(chuàng)作時(shí)期冰心標(biāo)點(diǎn)符號(hào)的平均間隔距離。如表2.14:
表2.14 冰心不同時(shí)期作品平均標(biāo)點(diǎn)間隔距離

根據(jù)等級(jí)相關(guān)系數(shù)的計(jì)算方法,我們需要對(duì)12個(gè)標(biāo)點(diǎn)符號(hào)的平均距離和年代進(jìn)行排序,確定年代秩序和標(biāo)點(diǎn)符號(hào)平均距離秩序。由于我們抽取樣本時(shí)是按年代次序抽取的,所以年代秩序可以將年代直接用1—12替代就行了;而標(biāo)點(diǎn)符號(hào)距離秩序必須要對(duì)上述標(biāo)點(diǎn)符號(hào)平均距離進(jìn)行排序才能夠得到,這用EXCEL也可以很簡單地得到。其結(jié)果如表2.15.
表2.15 冰心作品年代順序和平均標(biāo)點(diǎn)距離順序


根據(jù)等級(jí)相關(guān)系數(shù),首先需要求得年代秩序和距離秩序之間的差,然后才能夠計(jì)算等級(jí)相關(guān)系數(shù)R的值。我們借用EXCEL也可以很容易做到這一點(diǎn)。其結(jié)果如表2.16。
表2.16 冰心作品年代順利和平均標(biāo)點(diǎn)距離順序差


根據(jù)上述結(jié)果,秩序差的平方和為60。在此基礎(chǔ)上,創(chuàng)作年代和標(biāo)點(diǎn)符號(hào)的間隔距離的等級(jí)相關(guān)系數(shù)用以下公式就可以求出:

通常情況下,當(dāng)相關(guān)系數(shù)的絕對(duì)值為1時(shí),可認(rèn)為兩個(gè)變量是完全相關(guān)的,其絕對(duì)值大于0.9時(shí)可認(rèn)為是高度相關(guān)的,在0.7到0.9之間時(shí)可認(rèn)為是相關(guān)的,在0.3以下時(shí)可認(rèn)為是弱相關(guān)或者是不相關(guān)的(張衛(wèi)國,2002)。根據(jù)上述結(jié)果,冰心作品的創(chuàng)作年代和冰心標(biāo)點(diǎn)的習(xí)慣之間存在明顯的相關(guān)關(guān)系。即冰心的標(biāo)點(diǎn)符號(hào)之間的距離隨著年齡的增加有慢慢變長的趨勢(shì)。這一點(diǎn)也可以從創(chuàng)作年代和標(biāo)點(diǎn)距離的散點(diǎn)圖(圖2.12)可以看出。

圖2.12 冰心作品標(biāo)點(diǎn)距離和年代的關(guān)系