官术网_书友最值得收藏!

1.3 自然語言處理的基本方法

1.3.1 理性主義方法

理性主義(rationalist)方法認為,人的很大一部分語言知識是與生俱來的,由遺傳決定。持這種觀點的代表人物是美國語言學家喬姆斯基(Noam Chomsky),他的內在語言官能(innate language faculty)理論被廣泛接受。喬姆斯基認為,很難知道小孩在接收到極為有限的信息量的情況下,在如此小的年齡如何獲取如此之多的復雜語言理解能力。因此,理性主義的方法試圖通過假定人的語言能力是與生俱來的、固有的一種本能來回避習得和理解困難的問題。

在具體的自然語言問題研究中,理性主義方法主張建立符號處理系統,由人工來整理和編寫初始的語言知識表示體系(通常為規則),構造相應的推理程序。系統根據規則和程序,將自然語言理解為符號結構,該結構的意義可以從結構中的符號的意義推導出來。按照這種思路,在自然語言處理系統中,一般首先由詞法分析器按照人編寫的詞法規則對輸入句子的單詞進行詞法分析。然后,語法分析器根據人設計的語法規則對輸入句子進行語法結構分析。最后再根據一套變換規則將語法結構映射到語義符號,如邏輯表達式、語義網絡、中間語言等。

1.3.2 經驗主義方法

經驗主義(empiricist)方法認為人腦并不是從一開始就具備具體的處理原則和對具體語言成分的處理方法,而是假定孩子的大腦一開始具有處理聯想(association)、模式識別(pattern recognition)和通用化(generalization)處理能力。這些能力能夠使孩子充分利用感官輸入來掌握具體的自然語言結構。在系統實現方法上,經驗主義方法主張通過建立特定的數學模型來學習復雜的、廣泛的語言結構,然后利用統計學、模式識別和機器學習等方法來訓練模型的參數,以擴大語言使用的規模。因此,經驗主義的自然語言處理方法是建立在統計方法基礎之上的,故而,又被稱為統計自然語言處理(statistical natural language processing)方法。

在統計自然語言處理方法中,一般需要收集一些文本作為統計模型建立的基礎,這些文本被稱為語料(corpus)。經過篩選、加工和標注等處理的大批量語料所構成的數據庫叫作語料庫(corpus base)。由于統計方法通常以大規模語料庫為基礎,因此,又稱為基于語料(corpus-based)的自然語言處理方法。

實際上,理性主義和經驗主義試圖刻畫的是兩種不同的東西。生成語言學理論試圖刻畫的是人類思維(I-language,內在語言)的模式或方法。對于這種方法而言,某種語言的真實文本數據(E-language,外在語言)只提供間接的證據,這種證據可以由以這種語言為母語的人來提供。而經驗主義方法則直接關心如何刻畫這些真實的語言本身(E-language)。理性主義的提出者美國語言學家喬姆斯基把語言的能力(linguistic competence)和語言的表現(linguistic performance)區分開來。他認為,語言的能力反映的是語言結構知識,這種知識是說話人頭腦中固有的,而語言的表現則受到外界環境諸多因素的影響,如記憶的限制、對環境噪聲的抗干擾能力等。

1.3.3 對比分析

在自然語言處理發展的過程中,始終充滿了基于規則的理性主義方法和基于統計的經驗主義方法之間的矛盾,這種矛盾時起時伏,此起彼伏,見表1.1。自然語言處理也就在這樣的矛盾中逐漸成熟起來。

自然語言處理既有深層次的現象,也有淺層次的現象;既有遠距離的依存關系,也有近距離的依存關系;自然語言處理中既要使用演繹法,也要使用歸納法。因此,自然語言處理的研究應把理性主義和經驗主義結合起來。把基于規則的方法和基于統計的方法結合起來。過于強調一種方法,反對另一種方法,都是片面的,都不利于自然語言處理的發展。

表1.1 經驗主義與理性主義

主站蜘蛛池模板: 垣曲县| 抚宁县| 南皮县| 洮南市| 龙井市| 青龙| 高唐县| 宾川县| 吉林市| 民权县| 普定县| 文水县| 汝阳县| 资兴市| 壤塘县| 乌鲁木齐县| 鹤壁市| 永年县| 宜兴市| 彭州市| 谢通门县| 西昌市| 宁陵县| 宁乡县| 青田县| 绍兴市| 陵川县| 临夏市| 眉山市| 丰县| 本溪市| 于田县| 达州市| 云梦县| 九龙县| 安陆市| 汝阳县| 乌拉特前旗| 托克托县| 武威市| 郎溪县|