官术网_书友最值得收藏!

1.2 自然語言處理

機器閱讀理解屬于語言處理的范疇,而自然語言處理是人工智能領域的重要研究方向。它主要分析人類語言的規(guī)律和結構,設計計算機模型理解語言并與人類進行交流。自然語言處理的歷史可以追溯到人工智能的誕生。在數(shù)十年的發(fā)展中,自然語言的處理、理解和生成等領域的研究已經取得了長足的進步。這些都為機器閱讀理解研究奠定了堅實的基礎。本節(jié)主要介紹自然語言處理的研究現(xiàn)狀及其對機器閱讀理解的影響。

1.2.1 研究現(xiàn)狀

經過70余年的發(fā)展,自然語言處理相關研究已經細化分類成許多子任務。以下是與機器閱讀理解相關的重要研究方向。

1)信息檢索(information retrieval)。研究如何在海量文檔或網(wǎng)頁中尋找與用戶查詢相關的結果。信息檢索方面的研究已經相當成熟,并廣泛應用在網(wǎng)頁搜索等產品中,為信息的傳播和獲取提供了極大的便利。當一個閱讀理解任務涉及大規(guī)模文本庫時,信息檢索通常作為系統(tǒng)中抽取相關信息的第一個模塊。

2)問答系統(tǒng)(question and answering system)是指可以自動回答用戶提出問題的系統(tǒng)。問答系統(tǒng)與信息檢索的區(qū)別在于,問答系統(tǒng)需要理解復雜問題的語義,并支持多輪有上下文的對話。例如,對話式閱讀理解需要模型同時分析文章語義和之前對話輪次的信息,再對當前問題作出回答。

3)文本分類(text classification)是指對文章、段落、語句進行分類,如將大量網(wǎng)頁按照內容和主題進行劃分。一些機器閱讀理解模型對問題進行分類,如關于時間的問題、關于地點的問題等,以提高答案的準確性。這種問題分類就屬于文本分類的范疇。

4)機器翻譯(machine translation)研究如何讓計算機自動翻譯文本,可以應用在跨語言的閱讀理解任務中。例如,當文本來自小語種語言時,我們可以利用機器自動翻譯常用語言中的閱讀理解數(shù)據(jù),從而解決訓練數(shù)據(jù)缺乏的問題。

5)文本摘要(text summarization)研究如何用簡潔的語言概括文章的主旨和重要信息。由于文本摘要需要對文章語義進行分析并生成結果,其中的很多技術被應用到機器閱讀理解中,例如序列到序列模型(sequence-to-sequence),拷貝-生成網(wǎng)絡(pointer-generator network)等。

1.2.2 仍需解決的問題

隨著相關模型的不斷發(fā)展,自然語言處理在許多任務中取得了令人矚目的成績。但是,仍有許多沒有很好解決的問題,其中也包括對基本語言結構和語義的理解。這些也是機器閱讀理解研究中亟待解決的問題。

1.語言的歧義性

由于語言的一大特性是用較為精練的語句代表復雜的語義,因此一段文本時常會存在多義和歧義等情況,也就是有多種合理的解釋方式。來看下面幾個例子。

示例1:工廠領導對小張的批評意見進行過多次討論。

這里,既可以理解為領導討論了小張對工廠提出的批評意見,也可以理解為領導討論了對小張的批評意見。原因是“對”的對象可以是“小張的批評意見”,也可以是“小張”。

示例2:化學所取得的成績是有目共睹的。

這里,既可以理解為成績是“化學”取得的,也可以理解為成績是“化學所”取得的。原因是“所”既可以作為介詞,也可以作為“化學所”的一部分。

示例3:我要炒青菜。

這里,可以認為“炒青菜”是一道菜,而“我”在點菜,也可以認為“我”要去炒青菜。原因是“炒”可以作為整句話的動詞,也可以和“青菜”組成菜名。

這樣的歧義性示例還有許多。即使人類在面對這些語句時,也很難判斷說話者的真實意圖。但是,如果有上下文信息,歧義就會消除。例如,“我要炒青菜”發(fā)生在餐館點菜語境中,就說明“炒青菜”是一道菜;“化學所取得的成績是有目共睹的”出現(xiàn)在學校領導對化學所的考評中,就表示成績是屬于“化學所”的。

到目前為止,自然語言處理的模型仍不能很好地理解上下文的語義。研究人員通過分析自然語言處理模型在機器閱讀理解模型等任務上的結果,發(fā)現(xiàn)現(xiàn)有模型很大程度上是基于單詞或關鍵詞進行匹配,這也導致這些模型對于歧義性文本的處理能力很低。

2.推理能力

在人類語言交流中,許多時候可以從語言推理得出結論,而不需要詳細說明。例如,下面這個顧客通過客服訂票的對話例子:

客服:您好,請問我可以怎樣幫助您?

顧客:我想訂一張5月初從北京去上海的機票。

客服:好的,那么您想哪天出發(fā)?

顧客:嗯,我是去上海開會,這個會從4號開到7號。

客服:好的,下面是5月3日從北京出發(fā)到上海的直達航班信息……

上面的對話中,顧客并沒有正面回答客服關于哪天出發(fā)的問題,而是給出了開會的時間段。但是,從訂機票去開會這個事件可以推理出,顧客一定是想在會議開始前到達目的地,因此客服給出了5月3日出發(fā)的航班信息。當然,如果顧客想要訂上海回北京的機票,客服就應該給出5月7日晚或5月8日出發(fā)的航班信息。

因此,智能客服的模型需要根據(jù)之前的談話內容推斷出所需要的信息——出發(fā)日期。這種推斷需要模型具有一定的常識,即航班必須在開會前到達目的地。

近年來已經出現(xiàn)常識和推理在自然語言處理應用上的研究,但如何讓模型包含海量的常識并進行有效的推理仍是一個需要解決的問題。

主站蜘蛛池模板: 吕梁市| 西乌珠穆沁旗| 大厂| 湛江市| 乌鲁木齐市| 太仆寺旗| 延吉市| 永嘉县| 盐山县| 疏勒县| 盐边县| 株洲县| 宜兴市| 和静县| 武定县| 临沭县| 温州市| 交口县| 西贡区| 岗巴县| 忻城县| 雷州市| 舞阳县| 天津市| 和静县| 杭州市| 九龙县| 淮安市| 图木舒克市| 孝昌县| 吴桥县| 吉水县| 林芝县| 葫芦岛市| 新龙县| 南开区| 吴桥县| 东丰县| 老河口市| 定襄县| 巨野县|