官术网_书友最值得收藏!

1.1 基本概念

1.1.1 語言學與語音學

1.語言學

作為人與人之間信息傳遞與交流的載體,使用語言是人類進化中演化出的重要的技能,是人類文明的重要標志,是人類社會中不可或缺的工具。通過語言我們可以把抽象的想法具體化,把復雜的過程條理化。語言可以比作一座搭建在人類與人類、人類與世界之間的認知橋梁。與其說語言的誕生加速了人類的發展,不如認為各種語言的使用讓人類各行業、各領域的高度發展變得更加規范。

作為社會生活的最重要的工具,由語音、詞匯和語法構成的語言研究涉及方方面面,語言學(linguistics)因其研究的方向不同而產生了許多分支,包括歷時語言學(diachronic linguistics)[或稱歷史語言學(historical linguistics)]、共時語言學(synchronic linguistics)、一般語言學(general linguistics)、理論語言學(theoretical linguistics)、描述語言學(descriptive linguistics)、對比語言學(contrastive linguistics)、類型語言學(typological linguistics)、結構語言學(structural linguistics)等。

2.歷時語言學與共時語言學

歷時語言學(diachronic linguistics)也被稱為演化語言學或歷史語言學,它以長時間、寬廣度、階段性的視角來看待和研究一門語言的演化過程。

在語言的不斷發展中,曾經被經常使用的詞匯和流行語如今鮮為人知,替換成了更具時代風格的詞語。以網絡流行詞為例,“996”“內卷”等刻畫了一定的社會、時代、人物心理特征。這種舊詞摒棄和新詞創建的過程及其背后的原因是歷時語言學考察的主要任務。

在社會發展階段變化時,同種詞匯也會因需而被賦予與之前不一樣的表達意思,其語義得到了擴大、延伸并得到了社會和網絡上的默認,詞義的這種變化體現了明顯的歷時性。網絡上典型的例子是“菜”。原本“菜”指的是可以吃的草本植物,或者這類植物做成的菜肴。而如今,“菜”在網絡用語中,是菜鳥的意思,指游戲水平差,如同新手一般。關于它的由來網絡上也眾說紛紜,有人說,英文trainee(見習生)在閩南語中,讀出來就很像“菜鳥”。也有人說,一些人在描述笨鳥的時候,把“笨”和“菜”看混了,所以才慢慢有這個叫法。無論怎么說,“菜”這個詞的語義變化得到了社會和網絡的認可。與此同時,同詞的語義也會因為人們無意識地定向使用而縮窄、轉移其原本的適用范圍和對象。比方說一些有著明顯的感情色彩的詞語,在不同時代下也有著不同的含義。如“偶像”以前是供迷信人敬奉的木或泥做的人偶,是盲目崇拜的對象。而現代“偶像”一詞以褒義的形式存在,人們稱某某明星是自己的“偶像”,某某科學家是自己的“偶像”等。

舊詞摒棄,新詞創建,語義的擴充、縮窄、轉移,詞匯感情色彩的變化,這些都隨著時間的推移而不停改變以適應時代的需求,而語言的歷時性也由此充分地體現出來。

共時語言學(synchronic linguistics)是與歷時語言學對立的一個分支。共時語言學強調當前狀態,由于當前狀態相對靜止,共時語言學又被稱為靜態語言學。以提出這兩種語言學區分觀點的作者索緒爾的巧妙比喻來看,語言學本身是一個“樹干”,共時和歷時可看作是對樹干的橫縱不同方向的切割圖紋。共時是靜態的研究,歷時是演變的研究。共時語言學的主要任務是找出同種語言中或不同語言間的語法、語音的共同與差異。以英語和漢語為例,語法的結構大框架都大同小異,有“主謂賓定狀補”的成分,區別之一是英語多了許多的時態,如過去進行時、現在完成時、過去完成時等,雖然在漢語中我們很少提及這些時態,但是也都可以在漢語中找出英語對應的時態影子,這是共時語言學同一性的一種體現。另外,同義詞、多義詞、語境詞等都是共時語言學考察的對象。

共時語言學與歷時語言學共同為語言學的發展做出了重要的貢獻,在研究文本時我們應該搞清楚是用“共時”還是“歷時”的觀點來看待,從不同的截面,看到不同的紋理。

3.語音學

語音學(phonetics)顧名思義是研究語言發音的一門學科。語音學的研究范疇包括三類:發音語音學(articulatory phonetics)、聲學語音學(acoustic phonetics)、聽覺語音學(auditory phonetics)。在尋求最大化人機交互的前提下,語音學的研究主要在各種語言的基礎上來對語音進行研究。研究學者默認語音學包含在語言學的范疇之內。而作為語言學的獨特分支,語音學的研究和其他的文字研究又有本質的不同。狹義的語音學研究主要研究人類說話交流中用的各國語言和方言。為了標準化語音記錄符號,在1886年,國際語音協會(International Phonetic Association)制定了一套《國際音標》。這套音標的出版解決了許多發音難以標注的問題,被世界各地的語言學家采用。出版的音標和一些附加符號大體上滿足了世界各語言中語音的描寫要求,為語音可書寫化做出了巨大貢獻。漢語中的拼音和英語中的音標都是該種語音成熟的表現。中國地大物博,民族眾多,在中國社會科學院編寫的《中國的語言》中,統計指出中國共有129種語言,除漢語外的語音識別系統的完善仍有許多進步的空間。

1.1.2 自然語言

盡管現代自然語言處理往往被認為是人工智能和計算機科學的分支學科,但它的研究仍聚焦于自然語言本身。相關的研究會涉及形態學、語法學、語義學和語用學、邏輯學等幾個層次的自然語言知識。

1.形態學

形態學(morphology)又稱“詞匯形態學”或“詞法”,是語言學的一個重要分支,主要研究詞的內部結構,包括屈折變化和構詞法兩個部分。由于詞具有語音特征、句法特征和語義特征,形態學處于音位學、句法學和語義學的結合部位,所以形態學是語言學家重點關注的一門學科。

2.語法學語義學和語用學

語法學(syntax)主要研究句子結構成分之間的相互關系和組成句子序列的規則。語義學(semantics)是一門研究意義,尤其是語言意義的學科。語義學的研究對象是語言的各級單位(詞素、詞、詞組、句子、句子群、整段整篇的話語和文章,乃至整部著作)的意義,以及語義與語音、語法、修辭、文字、語境、哲學思想、社會環境、個人修養的關系等。

在現代語言學中,語用學(pragmatics)指的是從使用者的角度研究語言,重點探索使用者所做的選擇、在社會互動中所受的制約、所用語言對信息傳遞活動中其他參與者的影響等。

在實際問題的研究中,語義學和語用學的問題往往是相互交織在一起的。語法結構的研究離不開對詞匯形態的分析,句子語義的分析也離不開對詞匯語義、語法結構和語用的分析,它們之間往往互為前提。

3.邏輯學

邏輯學是一個哲學分支學科,旨在對思維規律進行研究。邏輯和邏輯學的發展,經過了具象邏輯—抽象邏輯—對稱邏輯(具象邏輯與抽象邏輯相統一)三大階段。所有思維都有內容和形式兩個方面。思維內容是指思維所反映的對象及其屬性;思維形式是指用以反映對象及其屬性的不同方式,即表達思維內容的不同方式。從邏輯學角度看,抽象思維的三種基本形式是概念、命題和推理。

1.1.3 自然語言處理

自然語言是指隨著人類文明的不斷發展而相應衍生出來的語言,人們用以交流溝通和搭建社會關系。自然語言有完備的語法、句型結構和豐富的詞匯,是可以滿足日常生活工作所有對話要求的成熟語言。中文、英文、法文、日文等都是自然語言。人們為了獨特藝術目的而單獨創造的語言不能被稱作自然語言,比如《指環王》中精靈們說的昆雅語和辛達林語。與自然語言相對應的就是“人造”語言,一般指計算機語言,如C、Python等邏輯語言。

由于計算機難以理解人類的自然語言,人們只能通過人造的邏輯語言與計算機進行對話和下達指令。如何將自然語言通過處理和轉化使得程序擁有像人類一樣理解自然語言的能力是自然語言處理的主要任務。

自然語言處理是在眾多領域不斷地結合中誕生和發展的,是一個跨學科領域,可分為自然語言理解和自然語言生成。自然語言處理需要符合語言學的文本作為處理對象,需要使用計算科學和認知科學作為處理工具,處理好的自然語言可應用到人工智能領域來達到處理目的。

在生活中人們也時刻得益于自然語言處理的發展,像手機中的虛擬助手,如蘋果的Siri、華為的Yoyo、小米的小愛同學。當詢問虛擬助手“最近的停車場在哪里?”時,自然語言處理系統會根據語音先將其轉換成文本,再通過文本識別出請求語氣,然后再提取“最近”“停車場”,這樣虛擬助手就能明白用戶是在找最近的停車場。通過搜索附近的地圖信息,虛擬助手可以找到目標停車場并提供最短路程導航,甚至可以提供該停車場收費信息和車主們的評價。

自然語言處理在搜索引擎、智能推薦系統、機器翻譯、聊天機器人、知識圖譜中都有很重要的應用,并依賴數據、算法、人機交互等環節的相互配合。就目前的技術而言,語義分析和語境的識別還有待完善。

主站蜘蛛池模板: 宜宾市| 姜堰市| 延安市| 太湖县| 万年县| 石首市| 泰州市| 宁陕县| 金堂县| 商城县| 通州市| 定州市| 苍溪县| 延吉市| 金塔县| 贵港市| 宁河县| 伊川县| 凌源市| 瑞金市| 高要市| 故城县| 嘉祥县| 陇西县| 深水埗区| 正镶白旗| 乐业县| 屏山县| 黔西| 承德县| 焉耆| 梓潼县| 博客| 乌兰县| 成安县| 高碑店市| 油尖旺区| 东方市| 中山市| 宜城市| 分宜县|