官术网_书友最值得收藏!

1.4 自然語(yǔ)言處理的研究?jī)?nèi)容

1.4.1 文本分類

傳統(tǒng)的文本分類任務(wù)旨在按照一定的分類體系或標(biāo)準(zhǔn)對(duì)文本集進(jìn)行自動(dòng)分類標(biāo)記。在文本分類研究中,知識(shí)工程方法中專家的主觀因素較多,并且存在著明確的評(píng)價(jià)標(biāo)準(zhǔn),在實(shí)際場(chǎng)景中表現(xiàn)良好。而統(tǒng)計(jì)學(xué)習(xí)方法因其堅(jiān)實(shí)的理論基礎(chǔ)而成為主流方法,該算法將樣本數(shù)據(jù)轉(zhuǎn)化為向量表示后,計(jì)算機(jī)開始其“學(xué)習(xí)”過程。常用的文本分類算法可分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法包括決策樹、Rocchio、樸素貝葉斯、支持向量機(jī)、線性最小二乘擬合、k近鄰算法、遺傳算法、最大熵等。深度學(xué)習(xí)方法則包括FastText、TextCNN等。

1.4.2 信息抽取

信息抽取,即從自然語(yǔ)言文本中抽取出有效的事件或事實(shí)信息,可有助于將海量?jī)?nèi)容自動(dòng)分類、提取和重構(gòu)。所需抽取的信息通常包括實(shí)體(entity)、關(guān)系(relation)和事件(event)。據(jù)此,信息抽取主要包括三個(gè)子任務(wù),即實(shí)體抽取與鏈指(命名實(shí)體識(shí)別)、實(shí)體間的關(guān)系抽取,以及事件抽取。如從新聞中抽取時(shí)間、地點(diǎn)、關(guān)鍵人物,或從技術(shù)文檔中抽取產(chǎn)品名稱、開發(fā)時(shí)間、性能指標(biāo)等。

常見的監(jiān)督類學(xué)習(xí)算法有馬爾可夫模型、貝葉斯網(wǎng)絡(luò)、條件隨機(jī)場(chǎng)等;非監(jiān)督類的算法有基于語(yǔ)法歸納、詞頻統(tǒng)計(jì)、樹形結(jié)構(gòu)比較等數(shù)據(jù)挖掘類算法。另外還有一些模型通過建模將提取問題轉(zhuǎn)化為分類問題。分類問題是機(jī)器學(xué)習(xí)算法的經(jīng)典問題,被廣泛使用的分類算法有支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)、樹形模型等。

不同算法各有優(yōu)點(diǎn)。如基于概率圖模型和數(shù)據(jù)挖掘類的算法,適合于網(wǎng)頁(yè)的模式比較明顯、格式化比較強(qiáng)的情況。而基于分類算法的模型能更好地利用網(wǎng)頁(yè)的視覺方面的特征,有助于提高算法的泛化能力。

1.4.3 文本摘要

文本摘要指通過各種技術(shù),抽取、總結(jié)或精煉文本或文本集合中的要點(diǎn)信息,用以概括和展示原始文本(集合)的主要內(nèi)容。作為文本生成任務(wù)的主要方向之一,從本質(zhì)上而言,是一種信息壓縮技術(shù)。

文本摘要的目的是讓用戶從海量的互聯(lián)網(wǎng)數(shù)據(jù)中找到有效信息。實(shí)現(xiàn)這一點(diǎn)有兩種不同的方式:一是以百度為代表的搜索引擎方案,可以理解為用戶主動(dòng)行為,可以發(fā)現(xiàn),當(dāng)進(jìn)行關(guān)鍵詞搜索時(shí),除了標(biāo)題,高亮展示的便是約為top100的字符;另外一種方案便是信息流,該方案可以理解為用戶被動(dòng)行為,是在移動(dòng)互聯(lián)網(wǎng)上的一種推薦系統(tǒng)。

抽取式文本摘要有顯著的優(yōu)點(diǎn),但也有生成內(nèi)容不連貫、字?jǐn)?shù)難以控制、目標(biāo)句主旨不明確等問題,其摘要好壞也部分取決于原文質(zhì)量。面向以上問題,研究人員提出了生成式文本摘要方法,如LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))模型、編碼器-解碼器模型等。在研究過程中,注意力機(jī)制思想的運(yùn)用是自然語(yǔ)言處理技術(shù)上的一次大的飛躍。近年來,也有眾多研究使用Self-Attention和Transformer來提升性能,并在預(yù)訓(xùn)練和微調(diào)的探索下,探索BERT與PreSumm。

文本摘要的主要評(píng)價(jià)指標(biāo)為Rouge-n和BLEU。Rouge-n由預(yù)測(cè)摘要與真實(shí)摘要n-gram信息的交集與并集的商可得(n=1,2,3…)。此外,在文本摘要領(lǐng)域,其性能還需人工做進(jìn)一步評(píng)估。

1.4.4 智能問答

1.任務(wù)型問答

任務(wù)型問答是指在特定場(chǎng)景下,機(jī)器人在多輪對(duì)話的過程中逐漸捕獲必要的信息,從而為用戶生成回答。據(jù)此可知,實(shí)現(xiàn)任務(wù)型問答的關(guān)鍵在于,如何對(duì)信息的捕獲設(shè)計(jì)一個(gè)流程,使其逐漸獲取所需信息。任務(wù)型問答一般包含三個(gè)核心模塊,即自然語(yǔ)言理解模塊、對(duì)話管理模塊,以及自然語(yǔ)言生成模塊。

2.檢索式問答

檢索式問答無需自然語(yǔ)言生成答案。給定回答集、問句及其上下文,檢索式問答模型將對(duì)問題和答案對(duì)進(jìn)行訓(xùn)練。模型訓(xùn)練完畢后,當(dāng)輸入一個(gè)問句,模型會(huì)對(duì)回答集中的答案進(jìn)行相似度計(jì)算并給予不同的可能性得分,最終得分最高的答案被視為最佳答案并輸出。

3.基于知識(shí)圖譜問答

基于知識(shí)圖譜問答(Knowledge-based Question Answering, KBQA)的技術(shù)路線是,首先將問題轉(zhuǎn)化為機(jī)器能理解的語(yǔ)義表示,然后使用該語(yǔ)義表示作為結(jié)構(gòu)化查詢語(yǔ)句以查詢知識(shí)圖譜,最終將查詢到的實(shí)體結(jié)合作為答案返回。

其中語(yǔ)義表示的方法有:

1)一階謂語(yǔ)邏輯:一階謂詞邏輯只允許限量詞(正則表示)應(yīng)用在對(duì)象,高階謂詞邏輯允許將限量詞用在謂詞和函數(shù)。

2)lambda-算子:陳述句的語(yǔ)義可以采用一階謂詞邏輯表示,問句的語(yǔ)義則常采用lambda-算子形式。

3)lambda-DCS:一階謂語(yǔ)邏輯和lambda-算子未考慮知識(shí)圖譜特性,lambda-DCS考慮知識(shí)圖譜特性卻忽略了全部未知變量。

語(yǔ)義分析的方法有:

(1)基于文法的語(yǔ)義分析方法

該方法從帶有語(yǔ)義表示的標(biāo)注數(shù)據(jù)中抽取符合特定文法的語(yǔ)義分析規(guī)則集合,每條規(guī)則至少包含自然語(yǔ)言和語(yǔ)義表示兩部分。然后,采用基于動(dòng)態(tài)規(guī)劃的解析算法(CYK、Shift-Reduce)產(chǎn)生句子對(duì)應(yīng)語(yǔ)義表示候選集。最終,基于標(biāo)注數(shù)據(jù)訓(xùn)練排序模型,對(duì)不同語(yǔ)義表示候選進(jìn)行打分,返回得分最高語(yǔ)義表示候選作為結(jié)果。

(2)基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分析方法

采用類似機(jī)器翻譯的序列到序列(sequence to sequence,seq2seq)生成模型,實(shí)現(xiàn)從自然語(yǔ)言到語(yǔ)義表示的轉(zhuǎn)化。

(3)基于答案排序的方法

給定輸入問題和知識(shí)圖譜,通過對(duì)知識(shí)圖譜中實(shí)體進(jìn)行打分和排序,選擇得分最高的實(shí)體或?qū)嶓w集合作為答案輸出。該方法包括以下步驟:

1)問題實(shí)體識(shí)別:對(duì)問題中提到的實(shí)體進(jìn)行識(shí)別。

2)答案候選檢索:根據(jù)識(shí)別出的問題實(shí)體,從知識(shí)圖譜中查找與之滿足特定約束條件的知識(shí)庫(kù)實(shí)體集合,作為候選答案。

3)答案候選表示:每個(gè)答案無法直接與問題比較,基于答案候選所在知識(shí)圖譜上下文生成對(duì)應(yīng)向量表示,問題和答案相關(guān)度計(jì)算轉(zhuǎn)為問題向量和候選向量計(jì)算。

4)答案候選排序:使用排序模型對(duì)不同答案候選打分排序,返回得分最高的答案候選集作為輸出結(jié)果。常用的答案候選排序有以下三種方法:

① 基于特征的答案排序:答案實(shí)體識(shí)別后,根據(jù)問題實(shí)體在知識(shí)圖譜中的位置,抽取與之不超過兩個(gè)謂詞連接的實(shí)體作為答案候選集合,然后使用一個(gè)特征向量表示每個(gè)候選答案(疑問詞特征、問題實(shí)體特征、問題類型、問題動(dòng)詞、上下文、謂詞特征)。

② 基于問題生成的答案排序:?jiǎn)栴}實(shí)體識(shí)別和答案候選檢索后,采用文本生成技術(shù)為每一個(gè)答案生成一個(gè)自然語(yǔ)言問題,作為該答案候選對(duì)應(yīng)的表示,計(jì)算輸入問題和每個(gè)答案候選對(duì)應(yīng)生成問題的相似度,對(duì)答案打分排序。

③ 基于子圖匹配的答案排序:每個(gè)答案候選從知識(shí)庫(kù)中抽取一個(gè)子圖,通過計(jì)算輸入問題和每個(gè)答案候選對(duì)應(yīng)子圖之間的相似度,對(duì)答案候選集合進(jìn)行打分和排序。

4.表格問答

表格問答主要分為表格檢索和答案生成兩個(gè)步驟,對(duì)于表格檢索:

1)當(dāng)表格全集的數(shù)目相對(duì)有限時(shí),可以將每個(gè)表格的結(jié)構(gòu)打散并將內(nèi)容順序連接構(gòu)成一個(gè)“文檔”,然后基于現(xiàn)有文本檢索技術(shù)找到與輸入問題最相關(guān)的表格子集。

2)當(dāng)表格全集很大時(shí),需要借助現(xiàn)有搜索引擎找到與問題最相關(guān)的結(jié)構(gòu)網(wǎng)頁(yè)集合,抽取該結(jié)構(gòu)網(wǎng)頁(yè)集合中包含的全部表格作為表格子集。

答案生成有多種常用方法,如:

1)基于答案排序的方法,可通過對(duì)不同表格單元進(jìn)行打分和排序,選擇得分最高的表格單元集合作為答案。

2)基于語(yǔ)義分析方法,可基于表格內(nèi)容生成問題對(duì)應(yīng)的語(yǔ)義表示,然后以該語(yǔ)義表示作為結(jié)構(gòu)化查詢語(yǔ)句,通過查詢表格以得到問題對(duì)應(yīng)的答案。

3)基于神經(jīng)網(wǎng)絡(luò)方法,可訓(xùn)練端到端的神經(jīng)網(wǎng)絡(luò)模型,直接生成問題對(duì)應(yīng)的答案。

5.文本問答

文本問答通常有問題處理模塊、文本檢索模塊和答案生成模塊三大模塊。問題處理模塊對(duì)輸入的自然語(yǔ)言問題進(jìn)行分詞、命名實(shí)體識(shí)別、詞性標(biāo)注依存樹分析等,并輸出問題類型、問題關(guān)鍵詞、答案類型等語(yǔ)義標(biāo)簽。其中問題類型包括事實(shí)類、是非類、定義類、列表類、比較類、意見類、指導(dǎo)類等。問題關(guān)鍵詞涉及問題實(shí)體和對(duì)答案的限制條件。答案類型則包括人物、時(shí)間、地點(diǎn)等類別標(biāo)簽。文本檢索模塊旨在從海量文本集合中檢索出與輸入問題最相關(guān)的文本候選。答案生成模塊的意義在于從檢索回來的候選文本中抽取或生成答案。給定問題和候選文本,該模塊需從文本候選中找到對(duì)應(yīng)的答案。答案可以是候選文本中的句子,也可以是候選文本中的單詞或短語(yǔ),還可以是基于候選文本推理出的內(nèi)容。

主站蜘蛛池模板: 奉化市| 商南县| 仙居县| 昆明市| 嵊泗县| 婺源县| 大同市| 云龙县| 双辽市| 新兴县| 祁门县| 县级市| 贵港市| 安阳县| 西安市| 云安县| 梅河口市| 阳新县| 莱州市| 汕头市| 应城市| 永城市| 阜新市| 宁都县| 吉安县| 永顺县| 正宁县| 山东省| 嘉定区| 会宁县| 孟村| 邳州市| 贺州市| 桃园市| 东乡族自治县| 华安县| 贡嘎县| 泾川县| 松江区| 城步| 陈巴尔虎旗|