書名：機器閱讀理解：算法與實踐
作者名：朱晨光
本章字數： 1233字
更新時間： 2020-04-24 18:38:06

序二

朱晨光博士現在（美國）微軟公司擔任高級研究員，主要從事自然語言處理方面的研究，包括機器閱讀理解、任務驅動對話和文本摘要等。他在CCCF（《中國計算機學會通訊》）上寫的一篇特約專稿《機器閱讀理解：如何讓計算機讀懂文章》很受歡迎。機械工業出版社的編輯看到后，特邀他寫書。近期，他完成了專著《機器閱讀理解：算法與實踐》，讓我寫一段序言。

自然語言處理旨在解決對自然語言的理解和生成問題。自然語言問題是人工智能皇冠上的明珠，是計算機重要的能力之一，也是研究難度很大的一個領域。人類常用的每一種自然語言都有其語法，但由于使用語言的人的風格不同，加上地方話和習慣用語等因素，所產生的語言千變萬化。人和人之間的交流和理解一般是沒有障礙的，但讓計算機理解就非常困難。這是因為，目前的馮·諾依曼計算機體系結構處理有明確規則的事務比較容易，但處理規則多變的事務就顯得有些力不從心。

多少年來，研究者提出和發展了很多方法，有基于語言學規則的技術，也有基于統計機器學習的模型。最近一段時間以來，研究者發展了端到端訓練的深度學習自然語言處理體系，包括詞嵌入、句子嵌入、注意力機制、編碼/解碼方法以及最近的預訓練模型等，大幅提升了模型處理各項任務的能力，給自然語言理解帶來了新的、有趣的思路。

機器（就是計算機）閱讀理解是自然語言處理中最熱門、最前沿的研究課題之一。閱讀是人們獲得信息的基本手段，沒有閱讀就沒有理解，沒有理解就無法交流。市面上已有很多聊天機器人產品，但人們發現這些機器人往往答非所問。究其原因，就是目前采用的技術是“文本比對”的黑盒方式，而實際上機器人并不理解人類在和它說什么。大家知道，人們在交流時是有語境（即上下文）的，通過聯想，人們可以方便地理解對方在說什么，但是讓機器了解語境確實是一件非常困難的事。為了解決這些問題，研究者提出了許多改進方法，不斷提高模型理解對話與文章的能力。而且，一大批閱讀理解數據集的發布強有力地推動了技術的發展。

機器閱讀除了研究價值以外，還有許多很有意義的應用，比如文本摘要可以省去人們閱讀全文的時間，問答系統可以從海量文檔中精確地找到用戶問題的答案。機器閱讀也是翻譯和對話的基礎，這對計算機輔助人工服務有重大價值。

晨光的這本書系統地介紹了這個領域的關鍵技術、取得的進展，以及存在的問題。相信讀者讀完本書后，會對這一領域的研究及應用有一個比較清晰的認識。

晨光在上中學時參加了CCF主辦的信息學奧林匹克競賽，曾獲得全國競賽的金牌，也是國際賽IOI中國隊的候選隊員。因我是主席，那時就認識他了。他后來被保送到清華大學計算機系讀書，畢業后又去斯坦福大學攻讀博士學位，然后在微軟從事自然語言處理方面的研究，造詣很高。我們很少見面，但一直保持聯系。我認為他是一個天資聰穎、學風嚴謹而又非常通達事理的青年學者，因此非常樂意和他討論問題。他提出讓我寫篇序，看到他的新的研究進展，我深感高興，于是欣然提筆，也借此向他表示祝賀。

杜子德原中科院計算所研究員，現任中國計算機學會秘書長

官术网_书友最值得收藏!

機器閱讀理解：算法與實踐

序二