官术网_书友最值得收藏!

三、可視化為什么重要

回顧前文梳理的線索我們可以看到,遠讀是數字人文的基石,而可視化又是遠讀最重要的呈現手段。由此,可視化在數字人文領域的重要性便不言自明了。甚至說數字人文就等同于對人文語料的可視化,也不算太過分。

斯迪芬·詹尼克(Stefan Janicke)等人收集了2005—2015年十年間使用人文語料可視化方法的期刊論文和會議論文共92篇,并總結出六類適用于遠讀的可視化方法:結構圖、熱力圖、標簽云、地圖、時間線、網絡圖。[9]結構圖用來展現單篇文檔或者整個語料庫的層級結構;熱力圖用來顯現文本內的隱含模式出現的頻繁程度(如《圣經》中反復出現的句式);標簽云展示高頻詞的相對比例;地圖被廣泛地用來呈現有地理屬性的對象的地理空間分布;時間線適合呈現歷史數據隨時間的演化;網絡圖被廣泛用來展現文本內或文本間信息對象的復雜關系。下面我們舉幾個有代表性的例子來說明遠讀是如何以可視化的方式實現的。

圖1來自斯坦福大學的書信共和國(Republic of Letters)項目。該圖展現了西班牙王國1600—1810年間360個科學家相互之間以及與外界書信往來的情況。在圖中選擇一個節點,便可以觀察該節點對應的科學家和他人的通信情況;選擇一個邊,便可以了解兩地之間在歷史上曾經發生過的交往;選擇一個區域,便圈定了相應的考察范圍。

圖1 1600—1810年間西班牙王國科學家的交流情況

圖2 宋元學案知識圖譜

圖2是北京大學數字人文研究中心根據《宋元學案》所作的宋代理學衍化脈絡可視化成果。圖中的每一條溪流代表一個學術門派(對應一個學案),它在某個時間點的垂直高度反映了對應時段該學派在世學者的數量,縱覽全圖我們可以觀察宋代理學各門派各學說消長流衍的總體情況。點擊其中的一個溪流,就跳轉到該學術門派的詳細介紹頁面。

圖3是很有代表性的數字人文可視化作品。斯蒂夫尼·珀薩瓦(Stefanie Posavec)將杰克·凱魯亞克(Jack Kerouac)二十世紀五十年代的暢銷小說《在路上》量化為一顆花樹。[10]圖中的中心結點是第一章,每個分支表示從第一章發展出的一個章節,由一個章節長出段落的分叉,組成一個段落的句子繪成一片葉子,葉子上的葉脈是對單詞的計數,顏色反映了小說的主題(themes)。這幅圖準確而又形象地展現了小說的篇章結構和主題演進。

圖3 小說《在路上》的遠讀可視化

盡管不同案例的可視化方式各不相同,但歸納來說,數字人文的可視化,為人文語料提供了一個全局圖景。這個圖景,在本質上是一個更多特征維度、更細知識粒度的目錄和索引。在中國的學術傳統中,目錄學是入學之門徑。清代王鳴盛在《十七史商榷》中說“目錄之學,學中第一緊要事”,“必從此問途,方能得其門而入”。唐代目錄學家毋煚在《古今書錄序》中說“覽錄而知旨,觀目而悉詞,經墳之精術盡探,賢哲之銳思咸識”,“將使書千帙于掌眸,披萬函于年祀”,其重要性可想而知。在紙質文獻時代,目錄和索引,實際上就是紙本圖書的遠讀系統。相應地,遠讀也可以看作是數字文本的可視化目錄。它描述了文檔集合的全局特征,讓研究人員對超大數據集有了整體認知。它揭示了文本內部或文本之間的多維度聯系,方便研究人員從地理、時間、頻度、聯系、主題等角度選擇他所關注的研究對象去深入細讀。同時,計算機遠讀得到的對文本的抽象化結果,為研究者理解文本提供了文字之外的材料。可以說,遠讀的價值,在于幫助我們在海量的數字媒體環境下篩選我們應當去關注的學術問題和有必要去細讀的文本。最終,我們還是要老老實實地坐下來細讀值得去讀的那一部分內容。

主站蜘蛛池模板: 肇东市| 永嘉县| 萨嘎县| 南丹县| 永和县| 蒙山县| 辉南县| 乡城县| 望都县| 邛崃市| 罗城| 进贤县| 喀喇沁旗| 南溪县| 苏尼特左旗| 蓝田县| 罗甸县| 无棣县| 潼关县| 密云县| 河东区| 临漳县| 东平县| 永清县| 化德县| 衡东县| 漠河县| 康平县| 平远县| 怀安县| 闽清县| 清水河县| 巴青县| 湘阴县| 三门县| 三河市| 南川市| 蒙城县| 海晏县| 宝丰县| 吉林省|