- 計量文體學導論
- 施建軍
- 11061字
- 2019-08-16 17:36:39
第三節 文體的計量特征
計量文體學作為完整的體系,其研究包括理論和應用兩個層面。從應用層面講,計量文體學主要解決文獻和文學作品的那些與文體相關的實際問題,如:文學作品的風格差異分析、佚名作者的考證、作品剽竊的鑒定等等。我們所說的計量文體學理論層面的研究主要是指文體特征的把握研究和利用文體特征進行分析的統計學方法研究。這里的統計方法研究是指,如何利用已知的文體特征載體更加精確、更加快速、更加簡便地計算分析文體的差別之所在,也就是找到更加合理的數學方法和理論,使得依靠這種數學方法和理論所開展的文體分析更加可靠和簡便。這種理論研究主要突破點在數學方面,不屬于人文研究的領域,因此,這里不對此做過多涉及。
但是,作家或者作品的特定風格或者是文體的主要載體是什么?這是文體學研究的最基本的問題,也是計量文體學的出發點。計量文體學的所有的統計分析必須建立在能夠充分反映作家或者作品的寫作風格的文體特征上。因此,文體特征的把握和分析,是我們必須要重視和深入探討的計量文體學重要研究領域。根據『文章の計量』,有學者認為能夠用于文體測量的文體特征項多達500多種(アンソニーケニイ,1996:13)。但是在文體測量中經常被采用,被認為是有效的文體特征項卻很少,而且根據語種的不同,能夠反映文章作者寫作風格的語言特征既有共性,也有具有與語種相對應的獨特特性。這里介紹幾種學界已經歸納出來的文體特征。
1.3.1 文體的詞長特征
計量文體學啟蒙階段,德?摩根認為作品的平均詞長能夠反映作家的寫作特點,同一作家的不同作品其平均詞長十分接近,而不同作家的作品的平均詞長相差卻很大。德?摩根以兩位古希臘歷史學家希羅多德(Herodotus,約公元前485—約公元前425)和修昔底德(Thucydides,約公元前460—公元前400)的著作為統計對象,對這兩個作家用詞的平均詞長進行了統計。希羅多德著作第一卷的平均詞長為5.624個字符,第二卷的平均詞長為5.619;而修昔底德著作的第一卷和第二卷的平均詞長分別是5.713和5.728??梢娡粋€作家的作品的平均詞長是非常接近的,而不同作家作品的平均詞長的差距要比同一作家作品間的平均詞長的差距大得多。德?摩根對《新約》圣經圣保羅的前13封書信的統計結果是,其平均詞長為5.428,而書信《至希伯來人》的平均詞長為5.516。由于平均詞長差距比較大,所以德?摩根認為,根據這個結果可以認為《致希伯來人》出自另外一個人之手。德?摩根的思想比較樸素、簡單,但是,現在看來用這種差別來衡量作家的寫作風格或者是文體特征的差別還是十分粗糙的,特別是當研究對象涉及多個作家的作品時,僅以平均詞長恐怕很難區分出不同作家。
門登荷爾也認為作家所使用詞匯的詞長能夠反映作家的寫作特征。但是,門登荷爾所利用的詞長特征不是簡單取作家的平均詞長,而是使用作家詞長的分布特征來衡量作家的文體特征的。1887年門登荷爾在《科學》雜志上發表論文指出,可以根據詞長及其出現的頻率描繪特定作品的詞的分布圖,就像用光譜可以描述光的特征一樣,用這種詞長的分布——詞譜可以分析文章的文體特征。門登荷爾在對莎士比亞的作品進行研究時發現,莎士比亞的作品無論是詩還是散文,其詞長分布曲線是一致的,均呈現出莎士比亞獨特的文體特征,莎士比亞作品中詞長為4的單詞出現頻率最高,這與莎士比亞同時代的作家有明顯的差別。此外,門登荷爾還對狄更斯、薩克雷、丹尼爾·笛福等多個作家的多部作品進行了統計分析,結果均表明詞長的分布特征可以反映作家的文體特征。
但是,1975年威廉姆斯(Williams)在對門登荷爾的結論進行驗證研究時發現,同一作家不同體裁的作品,如詩歌和散文,詞長的分布也有可能不一樣。威廉姆斯以莎士比亞、培根、錫德尼(Philip Sidney,1554—1586)為例,調查了莎士比亞的詩歌、培根的散文、錫德尼的詩歌和散文的詞長分布。下圖為其詞長分布曲線圖。

圖1.1 培根、莎士比亞、錫德尼三位作家散文、詩歌詞長分布
英語等西方語言,單詞長度的取值范圍比較大,其分布的多樣性足以區分不同作者。同時,由于西方語言單詞之間存在明顯的界限,這也為利用詞長分布作為文體特征進行文體的計量分析提供了很大的方便。但是,詞長的分布能否有效區分漢語和日語這樣的東方語言作家的文體是一個值得研究的問題。
由于日語書面語的連續書寫特性以及計算機分詞處理技術的限制,日本學界很少利用日語詞長分布進行文體研究。但是,為了驗證日語詞長分布在日文文體特征的區分上到底是否有效,日本學者金明哲等還是在這方面做了一些嘗試。
根據金明哲等著『言語と心理の統計』,金明哲選取了井上靖、中島敦、三島由紀夫等三位日本作家的作品為對象,用主成分分析的方法對這三位作家作品中的所有單詞的詞長信息進行了分析。以第一主成分的得分作為橫軸,第二主成分的得分作為縱軸,繪制了三位作家作品的散點圖。結果三島由紀夫的作品和井上靖的作品沒有能夠有效地區分開來。

圖1.2 井上靖、中島敦、三島由紀夫作品所有單詞詞長主成分分析圖
由于有些詞匯和文章內容存在密切的關系,如果用詞長作為文體特征時,采用較多的與文章內容關系緊密的詞匯信息,則不能很好地區分作品文體風格。這也是以文章中出現的所有單詞詞長為依據不能夠很好區分日語文體風格的重要原因。為了克服這個問題,金明哲等利用與文章內容關系比較弱的動詞的詞長為依據,用同樣的手法對上述三位作家的作品進行了主成分分析,結果發現日語文章中動詞的詞長能夠有效地區分不同作家的寫作風格。

圖1.3 井上靖、中島敦、三島由紀夫作品動詞詞長散點圖
利用詞長分布進行文體研究的第一個瓶頸就是漢語和日語的詞的界限的確定問題。漢語和日語書面語的單詞之間沒有天然的界限,而且句子分解成單詞時,在不改變句子意義的情況下,可以有多種單詞劃分的可能性。尤其是漢語,比如“漢語計量文體學”可以分成“漢語/計量/文體/學/”,也可以劃分成“漢語/計量/文體學/”,還可以劃分成“漢語/計量文體學”,還可以整個作為一個詞條。漢語句子中這種詞的劃定標準的不確定性,決定了詞長及其發生頻率統計的結果不可能是唯一的,因此對詞長分布的描述很難達到文體分析的精確要求。另外,如果以盡量短為標準進行漢語句子的切分,那么現代漢語大多數為1字詞和2字詞,詞長為1和2的單詞出現的頻率很高,詞長的分布也很難反映出不同作家之間的文體差異。
為了說明這個問題,筆者選取了林語堂散文(約11萬字)、蘇童散文(約12萬字)、朱自清散文(約9萬字),用北京大學開發的漢語分詞系統SLEX對其進行分詞處理,用筆者開發的《漢日語料庫通用分析工具》進行了詞長的分布統計。其結果如下:
表1.1 林語堂、蘇童、朱自清散文詞長頻率表



圖1.4 三位作家詞長分布圖
從上述統計結果我們可以看出,漢語的詞長一般在5個漢字以內。如果我們以詞長的分布甄別文體的差異,那么我們只能從這五個點上觀察作者在不同詞長漢語詞匯上的使用習慣。這就意味著以詞長分布作為衡量文體的依據時,漢語比英語(英語詞長通常在13個字符以內)要少將近2/3的觀測點。另外,漢語使用頻率最高的詞匯是1字詞和2字詞,1字詞和2字詞覆蓋了文章的97%以上,3字以上的漢字詞只占文章的3%。由于3字以上的漢字詞在文章中只占很小的比重,可以說3字詞的使用差別微不足道,很難說明3字以上詞匯的使用差別是否能夠反映文體差別。由此我們可以看到,漢語的詞長分布情況,只能在1字詞和2字詞的使用上觀察到差別,而僅依靠這兩個觀測點來觀測漢語文體的差異就顯得比較粗糙,有時根本就看不到差別。這一點從對林語堂、蘇童、朱自清散文的統計結果也可以看出。蘇童和朱自清的詞長分布曲線是重疊的,也就是說通過詞長分布根本不能夠判別朱自清和蘇童文體上有何差異;而林語堂的詞長分布曲線從3字詞開始也和蘇童、朱自清的重疊在一起。由此可見,由于漢語自身的特點,用詞長的分布描述漢語的文體其有效性是值得進一步探討的。
尤其是利用計算機進行這方面的研究,首先要解決漢語和日語的自動分詞問題。
1.3.2 句子長度
根據金明哲、村上征勝等著『言語と心理の統計』,最早發現句子長度也可以體現作家的寫作風格是Sherman(1888)。他認為英語文章的作者不同文章中句長的平均值會呈現出差異。統計學家尤爾(Yule)利用句長信息對中世紀西方宗教經典文學作品de Imitatione Christi[1]的作者進行了鑒定研究。Yule對該書句長的中位數和四分位數等統計量的統計分析表明,托馬斯·厄·肯培(Thomas a Kempis,1380—?)所著的可能性要大于巴黎大學校長格爾森(Gerson,1363—1429)。也有學者(Wake 1957)以句子的長度信息為依據對柏拉圖的《第七封書信》的真贗問題進行了鑒別。1965年Morton對希臘語散文的句長的分布進行了統計分析,結果發現同一作家在同一時代寫的作品其句長分布基本是不變的。
另據金明哲等在上述文獻中介紹,日本學者也對句子長度和日語文章文體風格的關系進行了分析。其中波多野完治對日語小說以及新聞文章句長分布進行的統計分析、安本美典、佐佐木和技等所進行的日語文章句長分布的正態性問題研究、樺島忠夫對日語文章中句長的變化以及句長和漢字使用率的關系的研究等都是利用句子長度信息分析日語文體風格的代表性研究。
根據筆者對中國知網數據庫所收錄的1979年至2010年期間的學術資源的調查結果,利用句子長度信息對漢語文體風格進行深入統計分析的原創性文章幾乎沒有。其中有幾篇介紹其他國家語言文體風格分析中句長信息運用的綜述性文章,如楊群英(2006)。
為了調查漢語文章句子長度和作者寫作風格之間的關系,筆者對中國現代三位作家的近20萬字散文進行了統計分析。這些作家是沈從文、林語堂、朱自清。作品如下:
表1.2 三位作家作品樣本表

英語句子長度的計算通常主要依靠計算其句號“.”之間的單詞數。漢語句子結束時常常用“。”“!”“?”等三個標點符號,漢語的句子長度可以用句子中漢字的個數來衡量。首先筆者將這些作家的散文切分成句子單位。然后,以漢字個數為單位統計每個句子的長度以及每個長度句子的使用頻率,進行句子長度的分布統計。

圖1.5 三位作家句子長度分布
上圖為林語堂、沈從文、朱自清三位作家散文句長分布圖。從分布圖上看,三位作家的句子長度分布曲線基本上重疊、交叉在一起,很難按照分布曲線對三位作家的風格進行區別。為了觀察不同作家句長分布曲線和同一作家不同作品的句長分布曲線的差別,我們還分別對林語堂、沈從文、朱自清上述散文各自的句長分布情況也進行了統計。結果發現,這三位作家各自的句長分布曲線也是交織在一起的,同一作家不同作品分布曲線更加難以區分。下圖是沈從文的《爐邊》《往事》《我的小學教育》等三篇散文的句長分布圖。

圖1.6 沈從文三篇散文句長分布
由上述分析,我們可以看出,以“?!薄?!”“?”等三種標點符號作為漢語句子的認定標準,以漢字為單位所測量出的漢語作家句子長度信息中能夠反映作家風格的信息非常有限,到目前為止,我們很難依靠這種特征來有效區分漢語作家的寫作風格。如何利用漢語句子長度信息進行漢語作家風格的定量分析仍有許多需要克服的難題。
1.3.3 詞性的分布特征
根據金明哲和村上征勝的上述文獻,最早利用詞性的分布特征進行文體研究的是Palme。Palme以名詞、形容詞以及否定表達方式的數量為統計對象,對100名英語作家作品進行統計,并用因子分析法對文章的風格特征進行了分析。日本利用詞性的分布特征進行文體研究的學者比較多,成果也很多。日本學者安本美典用名詞的使用頻率、比喻的使用頻率等15個統計項目,對100名日本現代作家的文章用因子分析的方法進行統計分析,認為這100名作家的寫作風格基本可以分成8大類別。1965年樺島忠夫、壽岳章子也利用品詞的使用頻率作為統計對象對100名作家的作品進行了分析,認為100名作家之間名詞使用率的差異比較大。另外這兩位學者還以名詞頻率、MVR(形容詞、形容動詞、副詞、連體詞等的數量和動詞數量比的百分數)、指示代詞的頻率、漢字詞頻率、句子長度、會話頻率、色彩詞的使用頻率、象聲詞的使用頻率等作為測量文章風格的尺度對這一百名作家的寫作特點進行了對比研究。
漢語曾有學者利用品詞的使用特點來區分口語體文章和新聞體文章。黃偉、劉海濤(2009)經過對中央電視臺的兩個欄目“新聞聯播”和“實話實說”的書面材料的統計分析發現,這兩個欄目的品詞使用存在顯著差異?!皩嵲拰嵳f”中副詞、代詞、助詞等的使用率明顯高于“新聞聯播”;而名詞的使用率“新聞聯播”卻明顯高于“實話實說”。
表1.3“實話實說”“新聞聯播”品詞頻率均值及標準差[2]

為了檢驗這些品詞使用特征在區別口語體文章和新聞體文章時的有效性,黃偉等還使用包括這些品詞特征在內的16個語言結構特征作為特征向量,利用統計學的聚類方法對來自“實話實說”“新聞聯播”“北京新聞”“魯豫有約”“人民日報”以及小說、學術論文等文體的21個文本進行了聚類分析。經過多次實驗分析發現以名詞、代詞、副詞、句首副詞、句首名詞為主的7個特征能夠準確區分漢語的口語體和書面語體。
1.3.4 文體標志性詞匯和功能詞的使用習慣
所謂文體標志性詞匯就是從某個作家的作品中抽取出來的其特別喜歡使用的,而別的作家一般不用的詞匯。比如:小說《明朝那些事兒》中,作者特別喜歡使用“不靠譜”。據金明哲(2009)Mosteller和Wallace等人1964年在研究The Federalist Papers(《聯邦黨人文集》)時,從那些已經知道作者的文章中抽取了“upon、although、commonly”等詞作為文體標志性詞匯,用統計學上的貝葉斯定理和判別分析等方法,對那些作者存有爭議的文章的作者進行了鑒別研究,得出了許多很有說服力的結論。
標志性詞匯是作家的愛用語,它可以是和文章內容有關的詞匯,也可以是和文章內容無關的詞匯。如果一個作家特別喜歡使用而其他作家一般不怎么用,那么這種詞匯有可能成為這個作家作品的標志。另外還有一種詞匯,這些詞匯不論哪個作家,也不論什么作品,都會大量使用。這些詞匯和文章的內容無關,但是它們的使用習慣(如使用頻率)卻能夠反映作家的寫作風格。這種詞匯的使用習慣,如果不是特別注意閱讀和研究,僅憑讀者的直感一般不容易發現其差別。但是其使用差別確實因人而異,如果對其進行精確測量,能夠準確地計算出作家的寫作風格的差別。諸如漢語中的“的、地、得”等語法功能詞。這些詞包括助詞、介詞、連詞以及一些副詞。
1962年瑞典文史學家Ellegard試圖利用功能詞的使用習慣推斷Junius Letters的作者。1987年Burrows等用實驗證明英語的“the、a、of、and”等高頻度功能詞可以用來進行作家的鑒定和文章體裁的區分。1996年Tweedie等又以高頻度功能詞作為神經網絡的輸入變量進行了The Federalist Papers作者的識別研究。
日語中使用頻率最高的是助詞和助動詞。助詞在文章中的使用率占到文章中品詞比例的35%—40%,而且助詞和助動詞和文章的內容關系不大。據金明哲、村上征勝(2009),日本最早利用功能詞進行作家文體研究的是韮澤。韮澤(1965)利用日語文言助詞“にて、へ、して、ど、ばかり、しも、のみ、ころ、なむ、じ、ざる、つ、む、あるは、されど、しかれども、いと、いかに”的使用頻率對日本江戶時代的古典文學作品《由良物語》的作者問題進行了研究。由于助詞在日語文章中具有很高的使用頻率而且和文章內容無關,其使用習慣被認為是分析日語作家文體非常有效的特征。日本同志社大學教授金明哲利用助詞的分布特征在對井上靖、中島敦、三島由紀夫的作品進行主成分分析時發現日語助詞的分布特征比句長特征、動詞分布特征都要有效。助詞分布特征不僅對內容比較長的作品作者的推定十分有效外,對內容比較短的作品作者的分析也十分有效。金明哲(1997)利用助詞的分布特征分析了6個人的日記,其中最短的一篇日記只有二三百字;2002年,又對平均只有1000字左右的大學生的作文進行了分析。兩次都獲得了95%—99%的作者判別精度。
中國也有學者利用助詞等與故事情節無關的功能詞進行文學作品作者的鑒定研究。上海華東師范大學的陳大康提出用以下47個文言虛字可以進行《紅樓夢》作者的推定研究:
之 其 或 亦 方 于 即 皆 因 仍 故 尚 乃 呀 嗎 咧啊 罷 么 呢 了 的 著 一 不 把 讓 向 往 是 在 別 好可 便 就 但 越 再 更 比 很 偏 兒 罷咧 罷了
1987年上海復旦大學學者李賢平發表了名為《紅樓夢成書新說》的論文,論文中采用了陳大康提出的47個虛字作為特征向量,用主成分分析、聚類分析等多種統計手段對《紅樓夢》的成書過程進行了分析,提出了《紅樓夢》有多名作者的結論。1988年陳大康撰文認為李賢平的分析缺乏客觀標準,因此結論不具可靠性(陳大康1988)??梢?,李賢平的研究并不是十分成功。
李賢平的結論受到了質疑,筆者認為可能有兩方面的原因。一是47個虛字在測量古典文學作品作者文體風格上是否有效;二是李賢平對統計方法的使用和解釋是否合理。從論文來看,李賢平的問題可能主要出在第二點上。盡管如此,47個虛字的有效性還需進行進一步驗證。為了證明47個文言虛字在區分古典小說作者上的有效性問題,筆者利用作者爭論不多的兩部清代小說《兒女英雄傳》(文康著)、《儒林外史》(吳敬梓著)為對象,以這47個虛詞中的44個虛字[3]使用頻率(千分數)為文體特征進行了聚類分析。下圖為44個虛字在《儒林外史》和《兒女英雄傳》中的頻率分布。

圖1.7《儒林外史》和《兒女英雄傳》中虛字頻率

圖1.8 導入到SPSS中的虛字頻率數據
我們利用上述44個文言虛字在《兒女英雄傳》和《儒林外史》各回中的頻率分布為特征對兩部小說按章回為單位進行聚類分析,結果如下表。
表1.4《兒女英雄傳》和《儒林外史》各回聚類分析結果


統計學中的聚類算法根據虛字的使用習慣,在兩篇小說每一回后面自動添加類別標號,虛字使用習慣相同的類別標號是一樣的。從上述結果我們看出,《兒女英雄傳》的都歸成了一類,其類別標號都是2;《儒林外史》的類別標號都是1。這說明《儒林外史》的作者對44個虛字的使用和《兒女英雄傳》的作者存在使用習慣上的差別。由此我們可以清楚地看出,44個文言虛字的使用習慣可以作為古典文學作品作者寫作特征的衡量指標。
1.3.5 詞匯量的豐富程度
一個作家所掌握的詞匯量是基本穩定的。而且詞匯量是因人而異的,不同作家的詞匯量不盡相同。這種特點反映在文章中就會表現為,詞匯量豐富的作家其文章中不同詞匯的數量和文章總詞次之間的比例比較大,也就是我們常說的其文章表達豐富;相反如果一篇文章中,不同詞匯的數量和文章總詞次的比例很小,則我們覺得其詞匯貧乏。由此可見,文章中詞匯量的豐富程度也可以作為衡量作家寫作特征的一個指標。文章中的詞匯豐富程度,最簡單而且直觀的計算方法可以用以下公式求得:
TR=V(N)/N…………………………………………1.1
其中:V(N)為文章中不同詞匯的數量,也就是我們所說的詞匯量。N表示文章中總的詞次。
最早提出用詞匯豐富程度衡量作家寫作特征的是統計學家尤爾(Yule),他在1944年提出了用K值來衡量詞匯豐富度。假設在詞次為N的文章中,出現i次的單詞數為V(i,N),那么尤爾認為K值就可以由以下公式給出:

為了能夠精確統計作家詞匯量的豐富程度,學者們還提出了許多測量詞匯豐富程度的方法。根據日本學者金明哲、村上征勝調查,迄今為止學界提出的有關衡量學者詞匯豐富程度的算法有十多種。金明哲、村上征勝在『文章の統計分析とは』中介紹了些算法。為了便于讀者參考,筆者也在這里將其列舉出來:


另據金明哲、村上征勝(2009)介紹,這些統計量大多和文章長度有關,只有K值和Z值基本不受文章長度影響,比較穩定,因此K值在文體測量中使用較多。
漢語由于自身的特點,詞匯的豐富度調查比較復雜,但是可以用漢字的使用情況來替代詞匯的使用情況。為了調查漢字的使用量和作家文體風格是否存在關系,筆者選取了我國現當代的5位作家的散文進行了調查。這5位作家分別是林語堂、沈從文、蘇童、余秋雨、朱自清。每位作家的抽取的樣本量(含標點)如下:
表1.5 五位作家作品的樣本總體情況

統計時我們只對漢字進行計數,標點符號排除在計數之外。具體情況如下表。
表1.6 五位作家作品樣本量


根據上表我們按照公式R=V(N)/N,計算每個作家的每一個樣本的用字豐富程度,見下表:
表1.7 五位作家用字量

由上述結果我們可以看出,各位作家的平均用字豐富程度是各不相同的,其中林語堂和朱自清的差距最大。雖然我們能夠從這么多樣本中看出每一位作家的用字的情況,但是如果涉及判斷哪一個樣本屬于哪位作家的問題時,漢字的TR值仍然稍顯粗糙。從上表我們可以看到,有些樣本雖然作家不同但是其漢字TR值卻十分接近,這樣的文章的歸屬問題我們很難依據漢字的TR值做出正確的判斷。從總字數和不同字數的散點圖也可以看出這一點。

圖1.9 五位作家用字散點圖
圖中不同作家的作品都交織在一起,這些樣本之間沒有清晰的界限。如果這些樣本的所屬事先是未知的,那么憑這樣的散點圖我們沒有辦法區分出哪些樣本是哪一個作家的。由此可見,利用漢字TR值進行文體的計量研究還有很長的路要走。這里要解決的最主要的課題就是,樣本容量達到什么程度時,TR值才能夠趨于穩定。只有TR趨于穩定才能夠將其運用到文體測量的實踐中。然而當所需樣本容量過大時又會帶來一個新的問題,那就是TR值雖然趨于穩定,但是小樣本的測量卻無法進行。
1.3.6 N-GRAM的分布情況
所謂N-GRAM是指語言中相鄰的N個特定語言單位所組成的字符串。這些語言單位可以是音素、字、詞等。N-Gram是計算機語言處理中最常用、最基本的語言概率模型。其基本思想是語言中某一現象的發生只和其前面N-1個現象有關。由于我們可以從大規模語料庫中統計N-GRAM的頻率,根據貝葉斯定理就可以對某一語言現象發生的概率進行預測,因此N-GRAM在自然語言處理的分詞、語音識別等技術中得到了廣泛的應用。
理論上,N-GRAM的N越大,對未知語言現象的預測越精確。但是,由于N每增加1,N-GRAM的數量將會以指數倍增長,考慮到計算和統計的規模,通常使用最多的是1-GRAM(UNIGRAM)、2-GRAM(BIGRAM)、3-GRAM(TRIGRAM)。下面以魯迅先生的名言為例,具體說明N-GRAM的含義。
我們以字為單位進行N-GRAM抽取時,這句話的1-GRAM、2-GRAM、3-GRAM分別如下:
1-GRAM:
?!⊥”尽∈恰o 所 謂 有,無 所 謂 無 的。這正 如 地 上 的 路;其 實 地 上 本 沒 有路,走的 人 多 了,也 便 成 了 路。
2-GRAM:
希望 望本 本是 是無 無所 所謂 謂有 有,無 無所 所謂 謂無 無的 的。這 這正 正如 如地 地上 上的 的路 路;其 其實 實地 地上 上本 本沒 沒有 有路 路,走 走的 的人 人多 多了 了,也 也便 便成 成了 了路 路。
3-GRAM:
希望本 望本是 本是無 是無所 無所謂 所謂有 謂有,有,無,無所 無所謂 所謂無 謂無的 無的。的。這。這正 這正如 正如地 如地上 地上的 上的路 的路;路;其;其實 其實地 實地上 地上本 上本沒 本沒有 沒有路 有路,路,走,走的 走的人的人多 人多了 多了,了,也,也便 也便成 便成了 成了路了路。
由此例可以看出,以單字為單位進行N-GRAM抽取時,1-gram實際上就是單字,2-GRAM為相鄰的兩個漢字的組合,3-GRAM就是相鄰3個漢字的組合。
由于N-GRAM是相鄰的特定的語言單位的組合,這種組合雖然具有概率意義,但是一般不具有語言學意義,因此其使用的情況也可能反映作家的文體特征。據日本學者金明哲、村上征勝(2009)介紹,最早使用N-GRAM分布特征作為文體特征進行作者身份研究的是Fucks。20世紀90年代Kjell、Hoorn分別用2-GRAM和3-GRAM嘗試文獻作者的鑒定。金明哲利用日語助詞的N-gram進行文獻作者的鑒定時收到了很好的效果。另外,日本學者山田崇仁(2004)利用N-GRAM對我國先秦時期諸子百家留下的歷史文獻的成書年代進行了探索。石井公成(2002)、師茂樹(2002)等學者用同樣的方法對佛教經典的真偽進行了研究。
為了檢驗N-GRAM在漢語文章作者鑒別上的有效性問題,筆者分別利用1-GRAM和2-GRAM對作家池莉、韓少功的100萬字的作品進行了聚類分析。在進行N-GRAM特征抽取時,我們以在參加聚類的19部作品中均出現的1-GRAM和2-GRAM作為文本的特征向量。其結果如下表。
表1.8 池莉、韓少功作品樣本聚類情況


表中準確率是指聚類結果中,被分為某一類的作品總數和分類正確的作品數的比例。比如,2-GRAM聚類欄中被標注1的類別中共有10個作品,但是其中池莉的作品只有9個,有一個不是池莉的,因此類別1的正確率為9/10=90%;查全率是指參加聚類分析的作家作品總數和被正確分類的作品數的比例。比如,2-GRAM欄中,參加聚類分析的池莉的作品數為9,而被分到類別1中的池莉作品數為9,所以池莉作品的查全率為9/9=100%;而韓少功作品的查全率為9/10=90%。
從這兩個作家作品的聚類結果看,以參加聚類分析的文本中均出現的1-GRAM和2-GRAM作為特征向量進行作家的聚類分析時,其準確率和查全率均比較高,而2-GRAM的性能更好。
1.3.7 漢語標點符號的使用規律和作者的文體風格
英語和日語在句子形態上是有非常明顯的不同特征的。比如,日語中表示情態的一些成分出現后就標志著一個句子的結束。通?!挨坤恧Αⅳ扦筏绀?、か、ね”等助詞、助動詞以及用言的終止形式出現后,往往意味著一個句子結束了,這時就應該點句號。由此可見,日語中句號的使用是有一定規律可循的,也就是說遵循著一定的語法規則。但是日語的句子有些時候很長,句子結束前在句子中間也可以用頓號進行句子中間的停頓,這種停頓既有一定的規律性,又與作家的習慣有關。表現其規律性的一面是日語的頓號總是點在某一個助詞的后面,而究竟點在那個助詞后面是因人而異的,沒有規律可循。有些作家喜歡在某一個特定的助詞后面點頓號,而另外一個作家則喜歡在另一個助詞后面進行句中停頓。金明哲認為這種沒有規律、因作家而異的句中頓號的標點方法后面可能隱藏著作家的寫作特征。金明哲(1994)從頓號與其前面的助詞的組合、頓號與其前面的單詞的詞性的組合,以及頓號之間的間隔文節的數量三個角度對日本作家井上靖、三島由紀夫、中島敦的21部作品進行了統計分析。結果發現,頓號與其前面助詞的組合在不同作家作品間差異很大,而這些特征在同一作家作品群內則差別很小。三種特征中頓號和助詞的組合最能夠反映作家的文體特征。而頓號的文節間隔數分布不能夠有效區分不同作家的作品。頓號和詞性的組合介于兩者之間。日語助詞和頓號的組合分布能夠有效反映作家風格特征的特性在使用主成分分析法進行分析時得到了進一步證實。
漢語和英語、日語不一樣,其最突出的一個特點就是缺乏形態上的特征,因此漢語的句子從形式上很難把握和界定。漢語文章中的句子,其標志不一定就是“?!?,因此,用以“?!睘闃酥镜木渥娱L度的分布衡量漢語作家的文體特征,不一定能夠收到很好的效果。這一點在“句子長度”一節中得到了證明。但是漢語句子的斷句確實是因人而異的,甚至可以認為是和作家的呼吸有關的。有的人喜歡使用長的句子,而有的人則喜歡使用短的句子。這里所說的句子是廣義的,斷句包括在句子中間使用除“?!币酝獾臉它c符號進行的停頓。但是,漢語又和日語不一樣,漢語這種句中停頓發生在某些特定的虛詞后面的情況不多,絕大多數情況是在實詞的后面。實際上,我們通常使用兩個標點符號之間的非標點字符的數量作為漢語文體特征的一個重要指標。我們稱之為標點符號間隔距離。而這個指標對于區分現代漢語的文體特征非常有效。在本書后面的內容中我們將利用多種統計學的方法進行文體分析時所使用的一個重要指標就是這個標點符號間隔距離。
正如前文所述,計量文體學研究領域所使用的數學方法和理論是數學領域的課題,不是人文研究領域學者所擅長的。然而并不是說人文學者在這一領域毫無施展的余地。傳統文體學的研究方法和研究成果,對計量文體學文體特征的分析和提取研究所發揮的作用是不可估量的。通常計量文體學研究所使用的數學方法和理論要獲得突破和進展需要一定的周期。當計量文體學中所使用的數學方法和理論處于一個穩定期時,即在所能夠利用的數學理論和方法不變的情況下,如何能夠使文體的計量分析更加精確和科學,則取決于用于計量分析的文體特征的選擇是否恰當,取決于這些文體特征是否能夠真正反映作品的文體風格。前文介紹的幾種常用文體特征指標,雖然在應用過程中有顯著的效果,但是,也存在一些不足。另外,漢語又有其特殊性,特別是漢語古典文學作品的文體特征如何把握,我們在這一方面還有很長的路要走。因此,計量文體學也是人文學者大有作為的研究領域。