- 機器閱讀理解:算法與實踐
- 朱晨光
- 2272字
- 2020-04-24 18:38:07
1.3 深度學習
深度學習是當前人工智能中炙手可熱的研究領域。基于深度學習的模型在圖像識別、語音識別、自然語言處理等諸多應用中大顯身手,大幅提高了模型的表現。當前絕大多數的機器閱讀理解模型均是基于深度學習的。接下來介紹深度學習的特點和成功案例。
1.3.1 深度學習的特點
深度學習作為機器學習的一個分支,為什么能在眾多的機器學習模型中脫穎而出?究其根源,有以下幾個重要原因。
第一,深度學習具有很大的模型復雜度。深度學習基于人工神經網絡,而人工神經網絡的一大特點是模型大小可控:即使是固定大小的輸入和輸出維度,也可以根據需求通過調整網絡層數、連接數、每層大小調控模型參數的數量。因此,深度學習易于增加模型復雜度(model complexity),從而更有效地利用海量數據。同時,研究表明深度學習模型的準確率可以隨著數據的增多而不斷增加(見圖1-2)。隨著機器閱讀理解領域的不斷發展,相關數據集越來越多,數據量也在不斷增大,這也使得深度學習成為閱讀理解中最常見的機器學習架構。

圖1-2 深度學習模型在圖像識別任務COCO和PASCAL VOC2007上的準確率。橫軸為訓練數據規模,縱軸為準確率
第二,深度學習強大的特征學習能力。在機器學習中,模型的表現很大程度上取決于如何學習數據的表示,即表征學習(representation learning)。傳統機器學習模型需要事先抽取對任務有重要作用的特征(feature)。在深度學習出現之前,特征抽取很大程度上是依靠人工完成的,并且依賴于領域專家的經驗。然而,深度學習依靠神經網絡對于數據的非線性變換處理可以自動地從原始特征中(如詞向量、圖片像素)學習得到有效的表示。由此可見,深度學習可以有效地自動獲取對任務有幫助的特征,而不需要設計者具有相關領域的特殊知識。因此,使用深度學習的機器閱讀理解模型并不需要開發者絞盡腦汁地思考從文章和問題中抽取哪些特征,模型本身可以利用大數據自動獲得高效的文本表示。
第三,深度學習可以實現端到端(end-to-end)的學習。很多機器學習模型采用流水線形式的多步驟解法,如學習特征→特征歸類→對每一類特征建立模型→合成預測結果。但是,這些步驟只能獨立優化,很難進行統一規劃以促進任務最終指標的提高。而且,一旦對其中一個步驟的模型進行改進,很可能導致下游的步驟需要重新進行訓練,大大降低了使用效率。而深度學習的一大優勢在于,可以利用神經網絡強大的數據表征和處理能力實現端到端處理,即以原始數據作為輸入,直接輸出所需要的最終結果。這種處理方式可以統籌優化所有參數以提高準確率。例如,在機器閱讀理解中,模型以文章和問題文本作為輸入,可以直接輸出答案文本,這大大簡化了優化的過程,也非常易于使用和部署。
第四,硬件的更新換代,特別是GPU計算能力的不斷進步。深度學習因為模型一般較為龐大,計算效率成為制約其發展的重要因素。而圖形處理器(Graphics Processing Unit, GPU)技術的不斷改進給深度學習發展帶來了極大的加速。與中央處理器CPU相比,GPU具有更強的浮點運算能力、更快的存儲和讀寫速度,以及多核并行的特點。GPU在最近十余年間的發展也符合早期CPU的摩爾定律,即運算速度和器件復雜度隨時間呈指數級增長。以NVIDIA公司、Google公司等為代表的GPU產業不斷推陳出新,并為深度學習開發專門的GPU和機型,促進了整個深度學習領域的發展和其在工業界的落地。
第五,深度學習框架的出現和社區的繁榮。隨著TensorFlow、PyTorch、Keras等框架的出現,神經網絡可以實現自動優化,并且框架中實現了絕大多數常用的網絡模塊,這使得深度學習開發的難度大大降低。與此同時,深度學習社區蓬勃發展。每當新的研究成果產生時,都會有開發者第一時間實現、驗證并開源模型,使得技術的普及應用達到了前所未有的速度。學術論文平臺arXiv、代碼平臺GitHub等極大地方便了研究者和開發者之間的交流,也降低了深度學習的研究和實現門檻。例如,2018年9月自然語言處理的突破性研究成果BERT(參見第6章中的介紹)的論文和開源代碼面世之后,短短數月之內,借助BERT的網絡模型,機器閱讀理解競賽榜單SQuAD和CoQA的最好成績就被頻頻刷新(見圖1-3)。

圖1-3 機器閱讀理解競賽SQuAD 2.0的前三名均基于BERT
1.3.2 深度學習的成果
自深度學習問世以來取得了許多舉世矚目的成果,在語音、圖像、文本等多個領域均有非常優異的表現。
2009年,深度學習之父Geoffrey Hinton在與微軟研究院合作期間,通過深度信念網絡(deep belief network)模型大幅提高了語音識別系統的準確率,并很快由IBM、谷歌、科大訊飛等行業和學術團體通過實驗證實。這也是深度學習最早的成功案例之一。7年之后,微軟進一步利用大規模深度學習網絡將語音識別系統的詞錯率降低至5.9%,首次達到與專業速記員持平的水準。
2012年,在ImageNet組織的大規模圖像識別競賽(ILSVRC2012)中,深度學習方法卷積神經網絡AlexNet獲得了84.6%的Top-5準確率,以超過第2名10個百分點的成績獲得冠軍。
2016年,斯坦福大學推出機器閱讀理解數據集SQuAD(Stanford Question Answering Dataset)。參賽模型需要閱讀500多個文章段落并回答十萬多條相關問題。短短一年后,Google提出的BERT預訓練深度學習模型就達到了精確匹配87.4%、F1指標93.2%的水平,一舉超越了人類的得分(精確匹配82.3%、F1指標91.2%),引發了業界的熱議。
2018年,微軟研發的深度學習翻譯系統在中英文通用新聞報道測試集上首次達到與人工翻譯同等水平的翻譯質量和準確率。
這些成就從不同方面證明了深度學習模型強大的學習能力,也為其在產業界的落地打下了堅實的基礎。然而,我們也應該看到,深度學習仍存在著一些尚未解決的缺陷,如很多模型因其參數眾多而被稱為“黑盒模型”,即無法解釋它對于特定輸入產生輸出的原理,也很難針對特定錯誤修改模型加以糾正。此外,深度學習模型還缺乏人類特有的推理、歸納與常識能力。這些都是科研的前沿問題。希望在不久的將來,更加強大的深度學習可以使計算機真正具有與人類一般的智能。
- Adobe Photoshop 網頁設計與制作標準實訓教程(CS5修訂版)
- Midjourney AI繪畫藝術創作教程:關鍵詞設置、藝術家與風格應用175例
- Zenoss Core Network and System Monitoring
- 工業軟件研發、測試與質量管理論叢
- SOLIDWORKS Visualize 實例詳解(微視頻版)
- AutoCAD 2024建筑設計從入門到精通(升級版)
- SolidWorks 2018快速入門及應用技巧
- 好學、好用、好玩的Photoshop 寫給初學者的入門書(第4版)
- Photoshop CC完全自學教程:從入門到實踐(全新版)
- Photoshop CC 2017 淘寶美工設計實例教程
- Instant Flask Web Development
- Adobe創意大學Premiere Pro影視剪輯師標準實訓教材(CS6修訂版)
- Photoshop人像精修秘笈
- 中文版Photoshop CC 2018基礎培訓教程(全彩版)
- 電磁場數值計算及基于FreeFEM的編程實現