- 計量文體學(xué)導(dǎo)論
- 施建軍
- 4637字
- 2019-08-16 17:36:41
第二節(jié) 文體特征的平均值、中位數(shù)、眾數(shù)
我們進行文體研究時,為了區(qū)別、比較幾個作家的用詞習(xí)慣或者句子長度,最直觀也是經(jīng)常被人們自覺或者不自覺地運用的一個數(shù)值就是平均值。如果兩個作家對某一個詞匯的平均使用次數(shù),或者他們的平均句子長度差別很大,我們就可以認為這兩位作家在用詞和句子長度上是具有各自的特點的。
平均值在統(tǒng)計學(xué)上叫數(shù)學(xué)期望,代表一種現(xiàn)象的平均取值水平。平均值通常用來進行團體之間水平差異的比較。比如我們?nèi)绻胫纼蓚€班學(xué)生學(xué)習(xí)成績的好壞,通常會將兩個班學(xué)生的平均成績放在一起進行比較。這是最便捷、也是最直接的一種比較方法。平均值在統(tǒng)計學(xué)上還有更重要的作用。這在以后還將進行介紹。
平均值的求法通常是將統(tǒng)計到的所有的觀察值加在一起,再除以觀察值的個數(shù)即可。我們以魯迅先生的《拿來主義》為例,統(tǒng)計魯迅先生標點符號之間的間隔距離(以漢字為單位,標點符號算作一個漢字),以及每一種距離出現(xiàn)的次數(shù)。下表為統(tǒng)計結(jié)果:
表2.3《拿來主義》標點間隔距離分布情況


為了敘述方便,我們設(shè)《拿來主義》中魯迅標點符號之間的間隔距離為隨機變量X,平均間隔距離為E(X),那么,
E(X)=(1*14+2*4+3*33+4*23+5*30+6*13+7*17+8*21+9*8+10*13+11*13+12*5+13*4+15*1+16*2+17*2+22*1)/(14+4+33+23+30+1 3+17+21+8+13+13+5+4+1+2+2+1)
≈6.3137
或者,所有的間隔距離與其出現(xiàn)的頻率的積的和,即,
E(X)=1*0.09+2*0.02+3*0.2+4*0.141+5*0.184+6*0.08+7*0.104+8*0.13+9*0.05+10*0.08+11*0.08+12*0.03+13*0.025+15*0.006+16*0.012+17*0.012+22*0.006≈6.3137.
實際上統(tǒng)計學(xué)上的數(shù)學(xué)期望的定義和上述平均值的第二種求法是一致的。即,如果隨機變量X=xi時的概率為pi,則

中位數(shù)
平均值常常用來比較兩組數(shù)據(jù)差異,但是有時候兩組數(shù)據(jù)的差異并不能夠在平均值上反映出來。平均值常常不能夠反映一組數(shù)據(jù)的真實情況。在統(tǒng)計一個地區(qū)的家庭收入時,如果這個地區(qū)貧富分化非常大,少數(shù)富豪掌握了絕大多數(shù)財富,而絕大多數(shù)普通家庭收入只占整個地區(qū)收入的一小部分,這時有可能整個地區(qū)收入的平均值很高,但是整個地區(qū)絕大多數(shù)人的家庭收入?yún)s很低,所以這時就不能夠因為家庭收入平均值很高就可以認為這個地區(qū)的家庭就很富裕。
在文體風格的描述上也存在類似情況。比如一個作家的斷句沒有太大的規(guī)律性,有時很長,有時很短;而另一個作家在標點符號的使用上卻很有規(guī)律,標點符號的間隔距離比較平均。假如這兩個作家標點符號使用的平均間隔距離恰好相等,由于上述情況的存在,我們是不能因為其平均值相等就認為他們在斷句的習(xí)慣上是一致的。這一點我們可以用下面學(xué)生成績的例子來進行說明。
比如下面是兩個組學(xué)生的數(shù)學(xué)成績:
第一組 43 56 58 60 68 71 71 98 100 100
第二組 64 65 70 70 72 73 75 75 81 85
根據(jù)平均值的計算方法,我們可以計算得到第一組數(shù)據(jù)的平均值為72.5;第二組數(shù)據(jù)的平均值為73。從這兩組數(shù)據(jù)的平均值來看,兩組學(xué)生的成績差距不大。但是我們仔細觀察兩組成績的具體情況時發(fā)現(xiàn),第一組成績的平均值雖然有72.5,然而里面60分以下的有三名,兩極分化比較嚴重,大部分成績不如第二組。而第二組雖然沒有第一組那樣的高分,但是成績比較均衡,整體上要明顯好于第一組。由此可以看出,像這樣的情況僅僅依靠平均并不能夠準確判斷兩組數(shù)據(jù)的差距。為了克服平均值的這種局限性,統(tǒng)計學(xué)上常用中位數(shù)來解決。所謂中位數(shù)(median),就是將數(shù)字按照大小順序進行排列,取其處于中間位置的那個數(shù)字作為一組數(shù)據(jù)的代表值。
中位數(shù)的計算方法分兩種情況,第一種情況是當一組數(shù)據(jù)有奇數(shù)個時,取其處于中間位置的那個數(shù)字。如:6、7、8、9、10這組數(shù)據(jù),處于中間位置的數(shù)字為第三個8,那么8就是這組數(shù)據(jù)的中位數(shù)。第二種情況是當一組數(shù)據(jù)有偶數(shù)個時,取其中間兩個數(shù)據(jù)的平均值。如上述學(xué)生成績的第一組數(shù)據(jù)的中位數(shù)為(68+71)/2=69.5;而第二組數(shù)據(jù)的中位數(shù)為(73+72)/2=72.5。就這兩組數(shù)據(jù)看,中位數(shù)比平均值更能夠反映兩組數(shù)據(jù)的實際情況。
統(tǒng)計學(xué)上除了常用均值、中位數(shù)來作為一組數(shù)據(jù)的代表值外,還用到眾數(shù)等概念。
下面介紹利用均值和中位數(shù)進行作家文體分析的方法。在我國現(xiàn)代作家中,魯迅和瞿秋白的寫作風格比較接近,有人甚至認為瞿秋白和魯迅的雜文可以以假亂真(彭蘊輝,1992)。這里以魯迅的《拿來主義》和瞿秋白的《關(guān)于女人》為例,考察魯迅和瞿秋白標點符號間隔距離的平均值和中位數(shù)的差距。
拿來主義
魯迅
六月四日。
關(guān)于女人
瞿秋白
一九三三年四月十一日
首先,我們分別統(tǒng)計《拿來主義》和《關(guān)于女人》兩篇雜文中標點符號的間隔距離。結(jié)果如下表:
表2.4《拿來主義》和《關(guān)于女人》中標點距離出現(xiàn)情況


根據(jù)以上統(tǒng)計結(jié)果,魯迅《拿來主義》標點符號的平均間隔距離為,

從上述標點符號間隔距離的平均值來看,魯迅的《拿來主義》和瞿秋白的《關(guān)于女人》還是有比較大的差別的。至于這兩篇雜文的標點符號間隔距離的平均值是否就能夠代表魯迅和瞿秋白所有作品標點間隔的特點,這兩個平均值的差距是否能夠說明反映在標點間隔距離上的魯迅和瞿秋白寫作風格的差別,還需要用統(tǒng)計學(xué)上的更深的理論和方法進行分析。這些理論和方法將在本書的后面的章節(jié)里面進行詳細闡述。
下面介紹這兩篇雜文標點符號間隔距離的中位數(shù)的算法。根據(jù)中位數(shù)的定義,計算中位數(shù)時需要對所有數(shù)據(jù)按照大小進行排序,然后取中間位置的一個值(總數(shù)為奇數(shù)時),或者中間位置的兩個值的平均值(總數(shù)為偶數(shù)時)。在我們將每一個數(shù)值及其頻度都已經(jīng)統(tǒng)計出來的情況下,再進行所有數(shù)據(jù)的排序比較復(fù)雜,而且是不必要的。由于我們已經(jīng)得出了每一個間隔長度所出現(xiàn)的頻度,并且已經(jīng)將其按照間隔長度的大小進行了排序,這時的中位數(shù)計算方法可以用累計頻度為總標點數(shù)1/2位置上的標點間隔長度作為標點間隔距離的中位數(shù)。上例中,瞿秋白的《關(guān)于女人》標點總數(shù)為94,其1/2為47,標點間隔長度的累計頻度為47位置上的標點間隔長度為9,因此,《關(guān)于女人》的標點符號間隔長度的中位數(shù)為9;同樣道理,魯迅的《拿來主義》的標點符號間隔長度的中位數(shù)為5。具體情況參見下表。
表2.5 兩部作品標點距離的累計頻度


眾數(shù)
顧名思義,眾數(shù)就是在獲得的一組數(shù)據(jù)中出現(xiàn)次數(shù)最高的那個數(shù)據(jù)。在根據(jù)上述統(tǒng)計結(jié)果,瞿秋白的《關(guān)于女人》中的標點符號間隔距離為9的情況出現(xiàn)了11次,是所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的;而魯迅的《拿來主義》中間隔距離為3的情況出現(xiàn)次數(shù)最多為33次。根據(jù)眾數(shù)我們可以得到一個基本的印象,就是瞿秋白《關(guān)于女人》中句子的長度要比魯迅的《拿來主義》要長,這也是瞿秋白和魯迅寫作風格的體現(xiàn)。