- 機器閱讀理解:算法與實踐
- 朱晨光
- 1233字
- 2020-04-24 18:38:06
序二
朱晨光博士現在(美國)微軟公司擔任高級研究員,主要從事自然語言處理方面的研究,包括機器閱讀理解、任務驅動對話和文本摘要等。他在CCCF(《中國計算機學會通訊》)上寫的一篇特約專稿《機器閱讀理解:如何讓計算機讀懂文章》很受歡迎。機械工業出版社的編輯看到后,特邀他寫書。近期,他完成了專著《機器閱讀理解:算法與實踐》,讓我寫一段序言。
自然語言處理旨在解決對自然語言的理解和生成問題。自然語言問題是人工智能皇冠上的明珠,是計算機重要的能力之一,也是研究難度很大的一個領域。人類常用的每一種自然語言都有其語法,但由于使用語言的人的風格不同,加上地方話和習慣用語等因素,所產生的語言千變萬化。人和人之間的交流和理解一般是沒有障礙的,但讓計算機理解就非常困難。這是因為,目前的馮·諾依曼計算機體系結構處理有明確規則的事務比較容易,但處理規則多變的事務就顯得有些力不從心。
多少年來,研究者提出和發展了很多方法,有基于語言學規則的技術,也有基于統計機器學習的模型。最近一段時間以來,研究者發展了端到端訓練的深度學習自然語言處理體系,包括詞嵌入、句子嵌入、注意力機制、編碼/解碼方法以及最近的預訓練模型等,大幅提升了模型處理各項任務的能力,給自然語言理解帶來了新的、有趣的思路。
機器(就是計算機)閱讀理解是自然語言處理中最熱門、最前沿的研究課題之一。閱讀是人們獲得信息的基本手段,沒有閱讀就沒有理解,沒有理解就無法交流。市面上已有很多聊天機器人產品,但人們發現這些機器人往往答非所問。究其原因,就是目前采用的技術是“文本比對”的黑盒方式,而實際上機器人并不理解人類在和它說什么。大家知道,人們在交流時是有語境(即上下文)的,通過聯想,人們可以方便地理解對方在說什么,但是讓機器了解語境確實是一件非常困難的事。為了解決這些問題,研究者提出了許多改進方法,不斷提高模型理解對話與文章的能力。而且,一大批閱讀理解數據集的發布強有力地推動了技術的發展。
機器閱讀除了研究價值以外,還有許多很有意義的應用,比如文本摘要可以省去人們閱讀全文的時間,問答系統可以從海量文檔中精確地找到用戶問題的答案。機器閱讀也是翻譯和對話的基礎,這對計算機輔助人工服務有重大價值。
晨光的這本書系統地介紹了這個領域的關鍵技術、取得的進展,以及存在的問題。相信讀者讀完本書后,會對這一領域的研究及應用有一個比較清晰的認識。
晨光在上中學時參加了CCF主辦的信息學奧林匹克競賽,曾獲得全國競賽的金牌,也是國際賽IOI中國隊的候選隊員。因我是主席,那時就認識他了。他后來被保送到清華大學計算機系讀書,畢業后又去斯坦福大學攻讀博士學位,然后在微軟從事自然語言處理方面的研究,造詣很高。我們很少見面,但一直保持聯系。我認為他是一個天資聰穎、學風嚴謹而又非常通達事理的青年學者,因此非常樂意和他討論問題。他提出讓我寫篇序,看到他的新的研究進展,我深感高興,于是欣然提筆,也借此向他表示祝賀。
杜子德原中科院計算所研究員,現任中國計算機學會秘書長
- 爸媽微信e時代
- Creo Parametric 8.0中文版基礎入門一本通
- DotNetNuke 5.4 Cookbook
- 3ds Max/VRay室內設計材質、燈光與建模速查超級手冊
- Excel 數據處理與分析實例教程(第2版)
- SolidWorks 2008機械設計一冊通
- Creo Parametric 5.0中文版從入門到精通
- ADOBE FLASH PROFESSIONAL CS6 標準培訓教材
- Photoshop圖形圖像處理實用教程
- Android User Interface Development: Beginner's Guide
- 剪映視頻后期剪輯零基礎入門到精通
- UG NX 9中文版從入門到精通
- 從零開始:AutoCAD 2010中文版建筑制圖基礎培訓教程(第2版)
- 零基礎學會聲會影2018(全視頻教學版)
- 剪映+Vlog+Premiere短視頻制作從新手到高手