- 計量文體學導論
- 施建軍
- 2377字
- 2019-08-16 17:36:39
第二節 國內外計量文體學發展的歷史和現狀
用統計學的理論方法研究作家的文體在國外可追溯到19世紀。《新約圣經》中有“羅馬書、哥林多前書、哥林多后書、加拉太書、以弗所書、腓立比書、帖撒羅尼加前書、帖撒羅尼加后書、提摩太前書、提摩太后書、提多書、腓利門書、希伯來書”等14封保羅寫給各地教主的書信。這些書信是否均出自保羅之手,歷史上一直存在爭議(村上,1994)。尤其是最后一封“希伯來書”,由于現存《新約》的“希伯來書”中沒有“保羅致……”字樣,有人認為這封書信很有可能不是保羅的作品。因此,保羅書信作者的鑒定一度成為學界的熱點問題。最初提出用數學方法證明此問題的是英國著名數學家、理論代數奠基人德?摩根(Augustus de Morgan,1806—1871)。
1851年,德?摩根在給劍橋牧師W.Heald的一封信中提出,每個人的文章都有自己的個性,即便是思維相近的兩個作家,其作品或文章中單詞的平均詞長總是或多或少地存在著差別,同一個人的不同作品的平均詞長的差別總是要比不同人所做的內容相同的作品的平均詞長的差別要小得多。因此,德·摩根認為用這種辦法就可以進行作品真偽的鑒定。
1887年美國地球物理學家門登荷爾(T.C.Mendenhall)受到德?摩根思想的啟發,認為詞長能夠反映作家的寫作習慣,就像光譜能夠反映各種顏色的光的特點一樣。如果能夠獲取這種“詞譜”就能夠確定某一部作品的作家。并認為“詞譜”能夠給作家考證提供科學的解決辦法。他利用這種方法對比研究了莎士比亞40萬詞、培根20萬詞的作品,獲得了反映這兩位作家寫作習慣的不同的“特征曲線”,從而解決了當時有關莎士比亞和培根是否是一個人的爭論,并且在《科學》雜志上發表了論文。同一時期歐洲也有許多學者在從事著同樣的研究。由于這種研究需要進行大量的統計分析,受到研究手段的限制,Mendenhall時代的統計文體學研究是一項艱苦的工作。
第二次世界大戰以后,隨著計算機的出現和統計學理論的發展,文體的統計研究也有了較大的發展。這一時期比較有名的研究成果是瑞典文史學家A.Ellegard關于《Junius投稿集》的研究。《Junius投稿集》是1769年至1772年英國報紙上發表的筆名為Junius的人所寫的攻擊英國政府和王室的一系列文章。這些文章的作者到底是誰一直是英國文學史上的謎。1962年A.Ellegard發表了《作者考證的統計方法》一書,書中A.Ellegard統計了Junius比同時期作家使用得更多的詞匯和不怎么使用的詞匯以及Junius對同義詞的選擇傾向,然后同當時被懷疑為Junius的40名作家一一進行對比。最后發現Junius的寫作習慣和Philip Francis的習慣驚人一致,因此A.Ellegard認為他的統計證據有99%的把握可以證明Junius和Philip Francis是同一個人。
20世紀中后期,隨著計算機的普及,統計文體學的研究特別是利用統計文體學方法進行西方語言文本的研究已經不像此前那樣高深莫測。開始有人用統計文體學的方法研究文學作品的偽作問題。在英國,計量文體學考證作者的方法甚至被警察用來判別自首書的真偽。70年代中期,英國劍橋大學的兩位師生曾經運用統計文體方法和計算機技術偵破了出版商偽造莎士比亞作品的案子從而震動西方文學界(賈洪衛等,1991)。80年代,在日本,華島忠夫、壽岳章子兩位學者利用統計學的方法研究了100多名日本作家的寫作風格,并出版了《文體的科學》一書。90年代,日本學者村上征勝運用多種統計手段對被譽為世界上最早的小說《源氏物語》的作者存疑問題進行了研究,于1994年出版了專著《真贗的科學》。
進入21世紀后,隨著信息技術的進步,特別是自然語言處理技術在漢語、日語自動分詞等方面取得了突破性的進展,國外有學者開始利用新的信息技術研究中國古典文獻。如日本的石井公成(2002)、師茂樹(2002)、山田崇仁(2004)等。山田崇仁利用自然語言處理中的N-GRAM和文本挖掘技術中的聚類方法對我國先秦時期諸子百家留下的歷史文獻的成書年代進行了探索。石井公成、師茂樹等學者用同樣的方法對佛教經典的真偽進行了研究。
受到西方研究方法的影響,我國學者真正開始用統計文體學方法研究中國古典文學作者問題始于20世紀80年代初。由于計量文體學涉及數學方法,加上計算機對中文處理能力的限制,盡管中國古典文學作品作者問題存在許多奇案,但是利用計量文體學方法研究中國文學作品作者問題的學者并不太多,成果數量也有限,且主要集中在《紅樓夢》的研究上。
根據前文論述可以知道,使用統計方法進行文學作品作者的考證在西方取得了令人信服的成果。而使用同樣的方法對《紅樓夢》的研究卻得出了截然相反的結論。這一方面說明《紅樓夢》這部作品的復雜性,同時也讓人懷疑在中國古典文學作者的考證研究中計量文體學的方法是否使用得當。自1987年陳大康先生發表《紅樓夢“成書新說”難以成立》一文,提出與李賢平商榷以后,至今已經有20多年。這二十多年似乎這方面的研究陷入了停頓,很少能夠看到這方面文章的發表。
可以說我國在計量文體學研究方面和世界先進水平還是有一定差距的。這種差距表現在以下三個方面。
一是我國計量文體學研究的現狀和社會現實需求存在著很大的距離。我國古典文獻的作者問題一直是困擾學界的熱點問題,至今沒有得到科學的解決。在現實生活中,隨著計算機和互聯網的普及,計算機輸入已經取代了用筆寫作的習慣,這又給我們提出了如何科學鑒定電子作品作者的課題。二是計量文體學研究成果的數量存在很大差距。歐美這方面的研究起始于19世紀,而我國20世紀80年代之前基本沒有這方面研究成果。即便是現在,針對中文文獻進行文體計量研究的原創性論文也非常少。而根據日本學者金明哲、村上征勝在『言語と心理の統計』中提供的資料,截至2002年歐美有關文體計量學和作家鑒定方面的英語論文(著作)有100多篇(部),日本約50余篇(部)。
三是尚未找到漢語文體的有效測量方法。文體的測量方法和指標,根據語言的不同呈現出其獨特性。詞長分布在進行英語文獻的計量分析時能夠收到很好的效果;日語助詞和標點的組合情況能夠有效地反映日語文獻的文體特征。但是這些特征指標很難在漢語文體測量上發揮有效的作用。我們必須要找到古代漢語和現代漢語的文體特征指標。