官术网_书友最值得收藏!

三、自然語言處理

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法,涉及的領域較多,主要包括機器翻譯、語義理解和問答系統等。

1.機器翻譯

機器翻譯是指利用計算機技術實現從一種自然語言到另外一種自然語言的翻譯過程。基于統計的機器翻譯方法突破了之前基于規則和實例翻譯方法的局限性,翻譯性能取得巨大提升。基于深度神經網絡的機器翻譯在日常口語等一些場景的成功應用已經顯現出了巨大的潛力。隨著上下文的語境表征和知識邏輯推理能力的發展,自然語言知識圖譜不斷擴充,機器翻譯將會在多輪對話翻譯及篇章翻譯等領域取得更大進展。

目前,非限定領域機器翻譯中性能較佳的一種是統計機器翻譯,包括訓練及解碼兩個階段。訓練階段的目標是獲得模型參數,解碼階段的目標是利用所估計的參數和給定的優化目標,獲取待翻譯語句的最佳翻譯結果。統計機器翻譯主要包括語料預處理、詞對齊、短語抽取、短語概率計算、最大熵調序等步驟。基于神經網絡的端到端翻譯方法不需要針對雙語句子專門設計特征模型,而是直接把源語言句子的詞串送入神經網絡模型,經過神經網絡的運算,得到目標語言句子的翻譯結果。在基于端到端的機器翻譯系統中,通常采用遞歸神經網絡或卷積神經網絡對句子進行表征建模,從海量訓練數據中抽取語義信息,與基于短語的統計翻譯相比,其翻譯結果更加流暢自然,在實際應用中取得了較好的效果。

2.語義理解

語義理解是指利用計算機技術實現對文本篇章的理解,并且回答與篇章相關問題的過程。語義理解更注重于對上下文的理解以及對答案精準程度的把控。隨著MCTest數據集的發布,語義理解受到更多關注,取得了快速發展,相關數據集和對應的神經網絡模型層出不窮。語義理解技術將在智能客服、產品自動問答等相關領域發揮重要作用,進一步提高問答與對話系統的精度。

在數據采集方面,語義理解通過自動構造數據方法和自動構造填空型問題的方法來有效擴充數據資源。為了解決填充型問題,一些基于深度學習的方法相繼提出,如基于注意力的神經網絡方法。當前主流的模型是利用神經網絡技術對篇章、問題建模,對答案的開始和終止位置進行預測,抽取出篇章片段。

微視角

對于進一步泛化的答案,處理難度進一步提升,目前的語義理解技術仍有較大的提升空間。

3.問答系統

問答系統分為開放領域的對話系統和特定領域的問答系統。問答系統技術是指讓計算機像人類一樣用自然語言與人交流的技術。人們可以向問答系統提交用自然語言表達的問題,系統會返回關聯性較高的答案。盡管問答系統目前已經有了不少應用產品出現,但大多是在實際信息服務系統和智能手機助手等領域中的應用,在問答系統魯棒性方面仍然存在著問題和挑戰。

自然語言處理面臨圖2-9所示的四大挑戰。

圖2-9 自然語言處理面臨的挑戰

主站蜘蛛池模板: 青海省| 彭州市| 尚义县| 临城县| 随州市| 陇川县| 贵南县| 砚山县| 景泰县| 雷波县| 镇平县| 绍兴县| 岫岩| 白河县| 长丰县| 无极县| 合阳县| 东方市| 徐汇区| 巩留县| 盐城市| 紫云| 华容县| 新河县| 金门县| 万州区| 宝坻区| 博白县| 阿坝县| 平阴县| 融水| 武鸣县| 庆云县| 西畴县| 二手房| 拉孜县| 武穴市| 敦煌市| 古田县| 浦江县| 青冈县|