官术网_书友最值得收藏!

第二節(jié) 文體特征的平均值、中位數(shù)、眾數(shù)

我們進行文體研究時,為了區(qū)別、比較幾個作家的用詞習(xí)慣或者句子長度,最直觀也是經(jīng)常被人們自覺或者不自覺地運用的一個數(shù)值就是平均值。如果兩個作家對某一個詞匯的平均使用次數(shù),或者他們的平均句子長度差別很大,我們就可以認為這兩位作家在用詞和句子長度上是具有各自的特點的。

平均值在統(tǒng)計學(xué)上叫數(shù)學(xué)期望,代表一種現(xiàn)象的平均取值水平。平均值通常用來進行團體之間水平差異的比較。比如我們?nèi)绻胫纼蓚€班學(xué)生學(xué)習(xí)成績的好壞,通常會將兩個班學(xué)生的平均成績放在一起進行比較。這是最便捷、也是最直接的一種比較方法。平均值在統(tǒng)計學(xué)上還有更重要的作用。這在以后還將進行介紹。

平均值的求法通常是將統(tǒng)計到的所有的觀察值加在一起,再除以觀察值的個數(shù)即可。我們以魯迅先生的《拿來主義》為例,統(tǒng)計魯迅先生標點符號之間的間隔距離(以漢字為單位,標點符號算作一個漢字),以及每一種距離出現(xiàn)的次數(shù)。下表為統(tǒng)計結(jié)果:

表2.3《拿來主義》標點間隔距離分布情況

為了敘述方便,我們設(shè)《拿來主義》中魯迅標點符號之間的間隔距離為隨機變量X,平均間隔距離為E(X),那么,

E(X)=(1*14+2*4+3*33+4*23+5*30+6*13+7*17+8*21+9*8+10*13+11*13+12*5+13*4+15*1+16*2+17*2+22*1)/(14+4+33+23+30+1 3+17+21+8+13+13+5+4+1+2+2+1)

≈6.3137

或者,所有的間隔距離與其出現(xiàn)的頻率的積的和,即,

E(X)=1*0.09+2*0.02+3*0.2+4*0.141+5*0.184+6*0.08+7*0.104+8*0.13+9*0.05+10*0.08+11*0.08+12*0.03+13*0.025+15*0.006+16*0.012+17*0.012+22*0.006≈6.3137.

實際上統(tǒng)計學(xué)上的數(shù)學(xué)期望的定義和上述平均值的第二種求法是一致的。即,如果隨機變量X=xi時的概率為pi,則

中位數(shù)

平均值常常用來比較兩組數(shù)據(jù)差異,但是有時候兩組數(shù)據(jù)的差異并不能夠在平均值上反映出來。平均值常常不能夠反映一組數(shù)據(jù)的真實情況。在統(tǒng)計一個地區(qū)的家庭收入時,如果這個地區(qū)貧富分化非常大,少數(shù)富豪掌握了絕大多數(shù)財富,而絕大多數(shù)普通家庭收入只占整個地區(qū)收入的一小部分,這時有可能整個地區(qū)收入的平均值很高,但是整個地區(qū)絕大多數(shù)人的家庭收入?yún)s很低,所以這時就不能夠因為家庭收入平均值很高就可以認為這個地區(qū)的家庭就很富裕。

在文體風格的描述上也存在類似情況。比如一個作家的斷句沒有太大的規(guī)律性,有時很長,有時很短;而另一個作家在標點符號的使用上卻很有規(guī)律,標點符號的間隔距離比較平均。假如這兩個作家標點符號使用的平均間隔距離恰好相等,由于上述情況的存在,我們是不能因為其平均值相等就認為他們在斷句的習(xí)慣上是一致的。這一點我們可以用下面學(xué)生成績的例子來進行說明。

比如下面是兩個組學(xué)生的數(shù)學(xué)成績:

第一組 43 56 58 60 68 71 71 98 100 100

第二組 64 65 70 70 72 73 75 75 81 85

根據(jù)平均值的計算方法,我們可以計算得到第一組數(shù)據(jù)的平均值為72.5;第二組數(shù)據(jù)的平均值為73。從這兩組數(shù)據(jù)的平均值來看,兩組學(xué)生的成績差距不大。但是我們仔細觀察兩組成績的具體情況時發(fā)現(xiàn),第一組成績的平均值雖然有72.5,然而里面60分以下的有三名,兩極分化比較嚴重,大部分成績不如第二組。而第二組雖然沒有第一組那樣的高分,但是成績比較均衡,整體上要明顯好于第一組。由此可以看出,像這樣的情況僅僅依靠平均并不能夠準確判斷兩組數(shù)據(jù)的差距。為了克服平均值的這種局限性,統(tǒng)計學(xué)上常用中位數(shù)來解決。所謂中位數(shù)(median),就是將數(shù)字按照大小順序進行排列,取其處于中間位置的那個數(shù)字作為一組數(shù)據(jù)的代表值。

中位數(shù)的計算方法分兩種情況,第一種情況是當一組數(shù)據(jù)有奇數(shù)個時,取其處于中間位置的那個數(shù)字。如:6、7、8、9、10這組數(shù)據(jù),處于中間位置的數(shù)字為第三個8,那么8就是這組數(shù)據(jù)的中位數(shù)。第二種情況是當一組數(shù)據(jù)有偶數(shù)個時,取其中間兩個數(shù)據(jù)的平均值。如上述學(xué)生成績的第一組數(shù)據(jù)的中位數(shù)為(68+71)/2=69.5;而第二組數(shù)據(jù)的中位數(shù)為(73+72)/2=72.5。就這兩組數(shù)據(jù)看,中位數(shù)比平均值更能夠反映兩組數(shù)據(jù)的實際情況。

統(tǒng)計學(xué)上除了常用均值、中位數(shù)來作為一組數(shù)據(jù)的代表值外,還用到眾數(shù)等概念。

下面介紹利用均值和中位數(shù)進行作家文體分析的方法。在我國現(xiàn)代作家中,魯迅和瞿秋白的寫作風格比較接近,有人甚至認為瞿秋白和魯迅的雜文可以以假亂真(彭蘊輝,1992)。這里以魯迅的《拿來主義》和瞿秋白的《關(guān)于女人》為例,考察魯迅和瞿秋白標點符號間隔距離的平均值和中位數(shù)的差距。

拿來主義

魯迅

中國一向是所謂“閉關(guān)主義”,自己不去,別人也不許來。

自從給槍炮打破了大門之后,又碰了一串釘子,到現(xiàn)在,成了什么都是“送去主義”了。別的且不說罷,單是學(xué)藝上的東西,近來就先送一批古董到巴黎去展覽,但終“不知后事如何”;還有幾位“大師”們捧著幾張古畫和新畫,在歐洲各國一路的掛過去,叫作“發(fā)揚國光”。聽說不遠還要送梅蘭芳博士到蘇聯(lián)去,以催進“象征主義”,此后是順便到歐洲傳道。我在這里不想討論梅博士演藝和象征主義的關(guān)系,總之,活人替代了古董,我敢說,也可以算得顯出一點進步了。

但我們沒有人根據(jù)了“禮尚往來”的儀節(jié),說道:拿來!

當然,能夠只是送出去,也不算壞事情,一者見得豐富,二者見得大度。尼采就自詡過他是太陽,光熱無窮,只是給與,不想取得。然而尼采究竟不是太陽,他發(fā)了瘋。中國也不是,雖然有人說,掘起地下的煤來,就足夠全世界幾百年之用,但是,幾百年之后呢?幾百年之后,我們當然是化為魂靈,或上天堂,或落了地獄,但我們的子孫是在的,所以還應(yīng)該給他們留下一點禮品。要不然,則當佳節(jié)大典之際,他們拿不出東西來,只好磕頭賀喜,討一點殘羹冷炙做獎賞。

這種獎賞,不要誤解為“拋來”的東西,這是“拋給”的,說得冠冕些,可以稱之為“送來”,我在這里不想舉出實例。

我在這里也并不想對于“送去”再說什么,否則太不“摩登”了。我只想鼓吹我們再吝嗇一點,“送去”之外,還得“拿來”,是為“拿來主義”。

但我們被“送來”的東西嚇怕了。先有英國的鴉片,德國的廢槍炮,后有法國的香粉,美國的電影,日本的印著“完全國貨”的各種小東西。于是連清醒的青年們,也對于洋貨發(fā)生了恐怖。其實,這正是因為那是“送來”的,而不是“拿來”的緣故。

所以我們要運用腦髓,放出眼光,自己來拿!

譬如罷,我們之中的一個窮青年,因為祖上的陰功(姑且讓我這么說說罷),得了一所大宅子,且不問他是騙來的,搶來的,或合法繼承的,或是做了女婿換來的。那么,怎么辦呢?我想,首先是不管三七二十一,“拿來”!但是,如果反對這宅子的舊主人,怕給他的東西染污了,徘徊不敢走進門,是孱頭;勃然大怒,放一把火燒光,算是保存自己的清白,則是昏蛋。不過因為原是羨慕這宅子的舊主人的,而這回接受一切,欣欣然的蹩進臥室,大吸剩下的鴉片,那當然更是廢物。“拿來主義”者是全不這樣的。

他占有,挑選。看見魚翅,并不就拋在路上以顯其“平民化”,只要有養(yǎng)料,也和朋友們像蘿卜白菜一樣的吃掉,只不用它來宴大賓;看見鴉片,也不當眾摔在毛廁里,以見其徹底革命,只送到藥房里去,以供治病之用,卻不弄“出售存膏,售完即止”的玄虛。只有煙槍和煙燈,雖然形式和印度,波斯,阿拉伯的煙具都不同,確可以算是一種國粹,倘使背著周游世界,一定會有人看,但我想,除了送一點進博物館之外,其余的是大可以毀掉的了。

還有一群姨太太,也大以請她們各自走散為是,要不然,“拿來主義”怕未免有些危機。

總之,我們要拿來。我們要或使用,或存放,或毀滅。那么,主人是新主人,宅子也就會成為新宅子。然而首先要這人沉著,勇猛,有辨別,不自私。沒有拿來的,人不能自成為新人,沒有拿來的,文藝不能自成為新文藝。

六月四日。

關(guān)于女人

瞿秋白

國難期間女人似乎也特別受難些。一些正人君子責備女人愛奢侈,不肯光顧國貨。就是跳舞,肉感等等,凡是和女性有關(guān)的,都成了罪狀。仿佛男人都成了苦行和尚,女人都進了修道院,國難就得救了似的。

其實那不是她的罪狀,正是她的可憐。這社會制度,把她擠成了各種各式的奴隸,還要把種種罪名加在她頭上。西漢末年,女人的眉毛畫得歪歪斜斜,也說是敗亡的預(yù)兆。其實亡漢的何嘗是女人!總之,只要看有人出來唉聲嘆氣的不滿意女人,我們就知道高等階級的地位有些不妙了。

奢侈和淫靡只是一種社會崩潰腐化的現(xiàn)象,決不是原因。私有制度的社會本來把女人也當做私產(chǎn),當做商品。一切國家,一切宗教,都有許多稀奇古怪的規(guī)條,把女人當做什么不吉利的動物,威嚇她,要她奴隸般的服從;同時又要她做高等階級的玩具。正像正人君子罵女人奢侈,板著面孔維持風化,而同時正在偷偷地欣賞肉感的大腿文化。

阿拉伯一個古詩人說:“地上的天堂是在圣賢的經(jīng)典里,在馬背上,在女人的胸脯上。”這句話倒是老實的供狀。

自然,各種各式的賣淫總有女人的份。然而買賣是雙方的。沒有買淫的嫖男,那里會有賣淫的娼女。所以問題還在賣淫的社會根源。這根源存在一天,淫靡和奢侈就一天不會消滅。女人的奢侈是怎么回事?男人是私有主,女人自己也不過是男人的所有品。她也許因此而變成了“敗家精”。她愛惜家財?shù)男囊容^的差些。而現(xiàn)在,賣淫的機會那么多,家庭里的女人直覺地感覺到自己地位的危險。民國初年就聽說上海的時髦總是從長三堂子傳到姨太太之流,從姨太太之流再傳到少奶奶,太太,小姐。這些“人家人”要和娼妓競爭——極大多數(shù)是不自覺的,——自然,她們就要竭力的修飾自己的身體,修飾拉得住男子的心的一切。這修飾的代價是很貴的,而且一天天的貴起來,不但是物質(zhì)的代價,還有精神上的代價。

美國的一個百萬富翁說:“我們不怕……我們的老婆就要使我們破產(chǎn),較工人來沒收我們的財產(chǎn)要早得多呢,工人他們是來不及的了。”而中國也許是為著要使工人“來不及”,所以高等華人的男女這樣趕緊的浪費著,享用著,暢快著,哪里還管得到國貨不國貨,風化不風化。然而口頭上是必須維持風化,提倡節(jié)儉的。

一九三三年四月十一日

首先,我們分別統(tǒng)計《拿來主義》和《關(guān)于女人》兩篇雜文中標點符號的間隔距離。結(jié)果如下表:

表2.4《拿來主義》和《關(guān)于女人》中標點距離出現(xiàn)情況

根據(jù)以上統(tǒng)計結(jié)果,魯迅《拿來主義》標點符號的平均間隔距離為,

從上述標點符號間隔距離的平均值來看,魯迅的《拿來主義》和瞿秋白的《關(guān)于女人》還是有比較大的差別的。至于這兩篇雜文的標點符號間隔距離的平均值是否就能夠代表魯迅和瞿秋白所有作品標點間隔的特點,這兩個平均值的差距是否能夠說明反映在標點間隔距離上的魯迅和瞿秋白寫作風格的差別,還需要用統(tǒng)計學(xué)上的更深的理論和方法進行分析。這些理論和方法將在本書的后面的章節(jié)里面進行詳細闡述。

下面介紹這兩篇雜文標點符號間隔距離的中位數(shù)的算法。根據(jù)中位數(shù)的定義,計算中位數(shù)時需要對所有數(shù)據(jù)按照大小進行排序,然后取中間位置的一個值(總數(shù)為奇數(shù)時),或者中間位置的兩個值的平均值(總數(shù)為偶數(shù)時)。在我們將每一個數(shù)值及其頻度都已經(jīng)統(tǒng)計出來的情況下,再進行所有數(shù)據(jù)的排序比較復(fù)雜,而且是不必要的。由于我們已經(jīng)得出了每一個間隔長度所出現(xiàn)的頻度,并且已經(jīng)將其按照間隔長度的大小進行了排序,這時的中位數(shù)計算方法可以用累計頻度為總標點數(shù)1/2位置上的標點間隔長度作為標點間隔距離的中位數(shù)。上例中,瞿秋白的《關(guān)于女人》標點總數(shù)為94,其1/2為47,標點間隔長度的累計頻度為47位置上的標點間隔長度為9,因此,《關(guān)于女人》的標點符號間隔長度的中位數(shù)為9;同樣道理,魯迅的《拿來主義》的標點符號間隔長度的中位數(shù)為5。具體情況參見下表。

表2.5 兩部作品標點距離的累計頻度

眾數(shù)

顧名思義,眾數(shù)就是在獲得的一組數(shù)據(jù)中出現(xiàn)次數(shù)最高的那個數(shù)據(jù)。在根據(jù)上述統(tǒng)計結(jié)果,瞿秋白的《關(guān)于女人》中的標點符號間隔距離為9的情況出現(xiàn)了11次,是所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的;而魯迅的《拿來主義》中間隔距離為3的情況出現(xiàn)次數(shù)最多為33次。根據(jù)眾數(shù)我們可以得到一個基本的印象,就是瞿秋白《關(guān)于女人》中句子的長度要比魯迅的《拿來主義》要長,這也是瞿秋白和魯迅寫作風格的體現(xiàn)。

主站蜘蛛池模板: 吉隆县| 德州市| 苍梧县| 达拉特旗| 中卫市| 二手房| 长武县| 永胜县| 清远市| 禹城市| 滨州市| 高邑县| 绿春县| 乌拉特前旗| 宁化县| 合肥市| 上高县| 遵义县| 绥滨县| 普兰县| 安仁县| 高邑县| 武夷山市| 田东县| 大新县| 沧源| 平原县| 阳春市| 墨玉县| 万荣县| 日照市| 博客| 呼伦贝尔市| 泸西县| 黔西| 芮城县| 墨江| 定州市| 辛集市| 盐山县| 香港|