官术网_书友最值得收藏!

序二

朱晨光博士現在(美國)微軟公司擔任高級研究員,主要從事自然語言處理方面的研究,包括機器閱讀理解、任務驅動對話和文本摘要等。他在CCCF(《中國計算機學會通訊》)上寫的一篇特約專稿《機器閱讀理解:如何讓計算機讀懂文章》很受歡迎。機械工業出版社的編輯看到后,特邀他寫書。近期,他完成了專著《機器閱讀理解:算法與實踐》,讓我寫一段序言。

自然語言處理旨在解決對自然語言的理解和生成問題。自然語言問題是人工智能皇冠上的明珠,是計算機重要的能力之一,也是研究難度很大的一個領域。人類常用的每一種自然語言都有其語法,但由于使用語言的人的風格不同,加上地方話和習慣用語等因素,所產生的語言千變萬化。人和人之間的交流和理解一般是沒有障礙的,但讓計算機理解就非常困難。這是因為,目前的馮·諾依曼計算機體系結構處理有明確規則的事務比較容易,但處理規則多變的事務就顯得有些力不從心。

多少年來,研究者提出和發展了很多方法,有基于語言學規則的技術,也有基于統計機器學習的模型。最近一段時間以來,研究者發展了端到端訓練的深度學習自然語言處理體系,包括詞嵌入、句子嵌入、注意力機制、編碼/解碼方法以及最近的預訓練模型等,大幅提升了模型處理各項任務的能力,給自然語言理解帶來了新的、有趣的思路。

機器(就是計算機)閱讀理解是自然語言處理中最熱門、最前沿的研究課題之一。閱讀是人們獲得信息的基本手段,沒有閱讀就沒有理解,沒有理解就無法交流。市面上已有很多聊天機器人產品,但人們發現這些機器人往往答非所問。究其原因,就是目前采用的技術是“文本比對”的黑盒方式,而實際上機器人并不理解人類在和它說什么。大家知道,人們在交流時是有語境(即上下文)的,通過聯想,人們可以方便地理解對方在說什么,但是讓機器了解語境確實是一件非常困難的事。為了解決這些問題,研究者提出了許多改進方法,不斷提高模型理解對話與文章的能力。而且,一大批閱讀理解數據集的發布強有力地推動了技術的發展。

機器閱讀除了研究價值以外,還有許多很有意義的應用,比如文本摘要可以省去人們閱讀全文的時間,問答系統可以從海量文檔中精確地找到用戶問題的答案。機器閱讀也是翻譯和對話的基礎,這對計算機輔助人工服務有重大價值。

晨光的這本書系統地介紹了這個領域的關鍵技術、取得的進展,以及存在的問題。相信讀者讀完本書后,會對這一領域的研究及應用有一個比較清晰的認識。

晨光在上中學時參加了CCF主辦的信息學奧林匹克競賽,曾獲得全國競賽的金牌,也是國際賽IOI中國隊的候選隊員。因我是主席,那時就認識他了。他后來被保送到清華大學計算機系讀書,畢業后又去斯坦福大學攻讀博士學位,然后在微軟從事自然語言處理方面的研究,造詣很高。我們很少見面,但一直保持聯系。我認為他是一個天資聰穎、學風嚴謹而又非常通達事理的青年學者,因此非常樂意和他討論問題。他提出讓我寫篇序,看到他的新的研究進展,我深感高興,于是欣然提筆,也借此向他表示祝賀。

杜子德原中科院計算所研究員,現任中國計算機學會秘書長

主站蜘蛛池模板: 金山区| 新余市| 开封市| 珲春市| 淄博市| 永安市| 南和县| 叶城县| 宁强县| 东乡| 阿勒泰市| 辽阳县| 湘潭市| 宜丰县| 交城县| 杭锦旗| 蓬莱市| 沙田区| 岚皋县| 绥阳县| 专栏| 垣曲县| 通道| 姜堰市| 都匀市| 永和县| 象山县| 永胜县| 微博| 栖霞市| 新蔡县| 绵竹市| 休宁县| 山东省| 剑阁县| 乌拉特后旗| 郯城县| 郑州市| 南宫市| 德阳市| 枣庄市|