官术网_书友最值得收藏!

二、什么是遠讀

遠讀這一概念,是數字人文建立的基石。計算機的遠讀與人的細讀,既然都是“讀”,此“讀”能否代替彼“讀”呢?清楚其中的差別,不僅能使我們清晰地界定計算方法在人文研究中的作用和地位,而且可以幫助我們重新確立人類閱讀的價值。

計算機是為科學計算而創造出來的,它擅長的是“計數”,而非理解。雖經不斷的改造和升級,它的計算能力得到極大提升,但它的工作原理仍是計算。要想處理自然語言文本,計算機必須先將文本置換成便于計數的詞匯集合,或者用更復雜的代數模型和概率模型來表示文本,這一過程可被稱為“數據化”。數據化之后所得到的文本替代物(集合、向量、概率)雖然損失了原始文本的豐富語義,但終究是可以計算的了。理解了以上過程,我們就能明白,盡管計算機能處理海量的語料,能執行復雜的統計、分類、查詢等操作,但它并沒有理解文本的內容。

在大規模的文本集合上所做的遠讀,基本上可以歸為兩類:一是對文本集合整體統計特征的描述,一是對文本集合內在結構特征的揭示。例如,米歇爾等人對數百萬冊谷歌數字化圖書做的詞匯統計屬于前者,莫萊蒂用圖(graphs)、地圖(maps)、樹結構(trees)分別來展示歷史小說的體裁變化、文學作品的地理特征和偵探故事的類型結構屬于后者。[7]無論是宏觀統計描述還是內在結構揭示,都是超越了文本具體內容的抽象表示,所得結果都是需要解讀的。正如米歇爾所說,在巨量文獻集合上得到的統計分析結果,為人文材料的宏觀研究提供了文本之外的證據(evidence);但是要解讀這些證據,正如分析古代生物化石一樣,是有挑戰性的。[8]解讀遠讀結果所依賴的,仍然是學者在細讀文本的基礎上所建立起來的對本領域的認知和理解。一句話,計算機遠讀的結果,還是需要人來讀的,人的閱讀不可替代。

需要補充說明的是,即便是單篇文檔,當我們考察它的文本特征(例如計算一篇文檔中所有單字的出現頻率),或者分析其內部結構(例如提取一部小說中所有人物的對話網絡)時,數據量也會增長到個人無法處理的程度。所以,上述針對文檔集合所作的討論在單篇文檔層面也是成立的。

以上理解可以幫助我們消除一些對數字人文的誤解。例如,一個普遍存在的對數字技術的期待,或者說對數字人文的評判依據是:看看數字人文能不能更好地回答傳統人文學者所關心的研究問題。嚴格說起來,通過個人細讀文本可以回答的問題,或者說人所擅長的工作,就沒必要請計算機來畫蛇添足。只有當數據量或者數據精度超出了個人閱讀理解的能力范圍時,才有理由借助計算機來對文獻或者文獻集合的特征予以量化描述,再提供給人去深入解讀。數字人文所提供的,不僅僅是新的工具和方法,更重要的,是它賦予我們提出新問題的能力——我們現在可以問,五千年來全人類用過的最頻繁的詞是什么。對于計算機科學家來說,這個問題提得過于瑣碎;但是對于像米歇爾這樣的文化學家來說,透過這類前人想都不會想到的問題,也許可以獲得觀察超長歷史時段文化現象的新視角。

主站蜘蛛池模板: 许昌县| 望江县| 十堰市| 香格里拉县| 临颍县| 宝清县| 长白| 宿州市| 静安区| 武威市| 闽清县| 隆子县| 乐清市| 西昌市| 乌兰察布市| 莱西市| 金秀| 德州市| 黔江区| 杭锦旗| 南岸区| 门源| 什邡市| 宕昌县| 英吉沙县| 顺义区| 曲阳县| 锡林郭勒盟| 临澧县| 通州区| 教育| 裕民县| 佛坪县| 营山县| 广汉市| 蛟河市| 巩留县| 枣强县| 新邵县| 依安县| 朝阳区|