官术网_书友最值得收藏!

  • 計量文體學導論
  • 施建軍
  • 2768字
  • 2019-08-16 17:36:41

第三節 文體特征的方差、標準差

任何一個人,在寫文章時都不可能等距離地斷句。也就是說同一個人的作品的標點符號的間隔距離不可能是很平均的,換句話說,即便是同一個作家,其作品中的句子是不可能一樣長的。上述平均值、中位數、眾數等指標雖然可以利用一個代表性的數值來衡量某一個人的句子長度,但是都是很粗糙的。我們不能夠僅僅因為其句子的平均長度一樣就判斷某兩個作品出自同一人之手。因為句子的平均長度可能出現一樣的情況,但是每一位作家的斷句情況可能是不一樣的。所謂的斷句情況,就是每一位作家進行寫作時,相隔多長距離點一次標點符號。這種間隔距離即便在同一篇文章中也會出現多種不同情況,而且每種情況出現的次數也是不一樣的。從上述魯迅和瞿秋白的例子中我們可以看出,魯迅的《拿來主義》中,有時隔1個漢字點一個標點,有時隔3個漢字點一個標點,有時隔20多個漢字點一個標點。瞿秋白的《關于女人》也是這樣的。但是,有一點是值得注意的,就是《關于女人》和《拿來主義》中每種情況出現的次數是不一樣的。比如,兩篇文章中都有標點符號間隔距離為3的情況,但是《關于女人》中只出現了6次,其頻率僅為6.38%;而《拿來主義》中卻出現了33次,其頻率為16.17%。這種標點符號間隔距離及其出現的概率的關系在概率統計上叫作標點符號間隔距離的分布。

從上面我們可以看到,每一個作家的作品其斷句均有許多不同的情況。瞿秋白的《關于女人》總共出現了20種斷句情況,即20種不同的標點符號間隔距離;魯迅的《拿來主義》出現了18種。而且這多種情況出現的次數各不相同,這種不同反映了作家斷句長度的起伏,因此也反映了作家在斷句上所流露出的自己特有的寫作風格。有的作家雖然斷句情況有起伏,但是起伏不大,也就是說其斷句長度相對平均;而有的作家卻在斷句上會有很大的起伏。方差就是描述這種起伏大小的統計量。

統計學上對方差的解釋,更加能夠幫助我們理解方差的意義。比如,我們要建設一個國富民強的國家,不但居民平均收入要高,而且貧富差距不能過大。如果富人很富,而窮人很窮,雖然財富的平均值很高,但是貧富差距太大,就算不上真正意義上的國富民強。我們需要的是財富平均值很高,而且每個家庭的收入又不能偏離這個平均值太遠,這樣才算是達到共同富裕的目標。還比如,我們生產一種產品,要確保產品質量,我們不但要使產品的平均指標達到標準要求,而且還需要每個產品的質量指標不能夠偏離平均標準太遠,即產品的質量差異不能夠太大,這樣才能夠保證產品質量的穩定。再比如,衡量一個班級某一科成績整體情況時,我們不但需要考查該科成績的平均成績,而且還需要考查學生和學生之間該科成績的差距,如果平均成績很高,而且每個學生的成績之間的差距不大,我們就可以認為這個班整體成績比較好。衡量貧富差距的大小、產品質量是否穩定、班級整體學習成績的好壞就可以用方差。

根據上述描述,我們可以知道方差可以衡量一組數據的差異性程度或者是分散程度。實際上,我們可以用所得到的一組數據中每個數據偏離這組數據的平均值距離來衡量數據的這種分散程度。一個大家最容易理解的方法就是用這組數據中所有數據偏離這組數據的平均值的距離的平均值來衡量。假設代表這組數據的隨機變量為X,根據平均值的計算方法,這組數據的平均值就是E(X),那么隨機變量偏離平均值距離的平均值就是:

E(X-E(X))

我們還以魯迅的《拿來主義》和瞿秋白的《關于女人》的標點符號間隔距離為例,觀測這兩篇文章標點符號間隔長度偏離各自平均間隔長度的距離的平均值。根據上文我們知道,《拿來主義》標點符號的平均間隔長度為6.31,《關于女人》標點符號的平均間隔長度為9.38;而且每一種標點符號的間隔長度所出現的頻率也均已經統計出。那么,這兩篇作品標點符號間隔長度偏離其平均值的距離就可以用以下公式計算:

計算情況如下表:

表2.6 標點符號距離的離差計算

根據公式2.8,上表中(Xi-E(X))Pi一欄所有數據的和就是D(X)。也就是瞿秋白《關于女人》標點符號的間隔長度偏離其平均值的平均距離為0.0001818,而魯迅《拿來主義》的平均偏離距離為5.0X10-7。這兩個數值是一個非常小的數值,如果用這兩個數值來衡量這兩篇作品的標點符號的間隔長度的分散程度,只能夠說明這兩部作品斷句情況都比較均勻。這個結論顯然是不符合事實的,因為從上述關于《拿來主義》和《關于女人》標點符號間隔長度的統計表中我們可以清楚地看到,兩個作家的斷句情況波動還是比較大的。《關于女人》的標點符號的最長間隔長度為20個字符,與其平均長度9.38的差為10.62個字符;《拿來主義》的最長間隔長度為22,與其平均長度6.31的差為15.69。這兩個差值遠遠大于按上述方法計算出的D(X)的值0.0001818和5.0X10-7。由此可見用公式(8)所計算出的值不能夠真實地反映這兩篇作品中兩個作家斷句的波動情況。產生這一情況的原因是,Xi-E(X)雖然可以計算每一個取值偏離平均值的距離的大小,但是也將大于平均值和小于平均值的情況用正負值表達出來了,由于在計算其偏離距離的平均值時,需要計算這些偏離距離的和,而偏離距離有正有負,求和時正負值相互抵消,造成了偏離距離的平均值變得很小。實際上,我們觀察數據的波動時,只考慮波動的大小,即偏離距離的大小,偏離距離越大我們則認為數據的波動較大。至于偏離的方向對衡量數據波動程度的大小沒有直接作用。《拿來主義》的標點符號的間隔距離的平均值為6.31,最長間隔長度為22,最短間隔長度為1;最長間隔長度偏離平均值的距離為15.69,最短間隔長度偏離平均值的距離為5.31。標點符號間隔長度的波動大小用這些偏離距離就可以一目了然,而沒有必要考慮偏離距離的正負問題。基于上述情況,計算一組數據波動程度,就應該用偏離距離的絕對值的和。由于使用絕對值會給計算和理論研究帶來麻煩,而任何一個數的平方都是正數,因此,統計學上,用偏離距離的平方和來計算數據波動程度,即公式2.8應改為:

由于公式2.9為隨機變量及其平均值的差的平方,所以習慣上稱D(X)為方差。

但是在實際運用過程中,由于D(X)是隨機變量偏離平均長度的平方,這和隨機變量的衡量單位不一致。比如《拿來主義》的標點符號平均間隔長度為6.31個漢字,最長間隔長度為22個漢字,最長間隔長度偏離平均間隔長度的距離15.69個漢字。如果用上述公式2.9計算,則偏離程度變成(15.69漢字)2,其單位變成了漢字2。用漢字2來衡量標點符號間隔距離的差不符合我們的習慣,而我們還是習慣用15.69個漢字來衡量這種偏離距離。因此,通常在實際應用中,我們一般使用D(X)開平方的值,即:

我們將這個值叫作均方差或者標準差。標準差是衡量一組數據是否穩定的重要指標。下表就是《關于女人》和《拿來主義》兩篇文章中標點符號間隔長度標準差的具體計算結果。

表2.7 標點符號距離的方差和標準差計算

根據上述結果,《關于女人》的標點符號間隔距離的標準差為4.9597,《拿來主義》標準差為3.62。由此可見,魯迅的斷句長度的波動沒有瞿秋白的大。

主站蜘蛛池模板: 恩施市| 太湖县| 汤阴县| 绩溪县| 吉林省| 新昌县| 麟游县| 色达县| 自贡市| 晴隆县| 民权县| 正蓝旗| 思茅市| 宜黄县| 西乌珠穆沁旗| 江阴市| 乌恰县| 威远县| 蛟河市| 松滋市| 永靖县| 镇巴县| 齐齐哈尔市| 梁河县| 游戏| 龙江县| 揭阳市| 盖州市| 长宁县| 晴隆县| 志丹县| 安新县| 鸡东县| 台山市| 乡城县| 佛冈县| 大连市| 大厂| 黑龙江省| 庄河市| 平罗县|