官术网_书友最值得收藏!

1.2 為什么會出現深度學習

在今天已經是如日中天的深度學習,它的出現和快速發展,主要歸功于圖像識別、語音識別技術的發展,以及Google等大數據公司的貢獻,得益于大量訓練測試數據的輕松獲取、GPU等硬件的發展,當然還有學習方法方面的發明創造。下面逐一簡要說明它們在深度學習發展過程中所起的作用。

在圖像識別方面,以往使用的是尺寸不變特征變換(Scale Invariant Feature Transform,SIFT)、視覺詞袋模型(Bag of Visual Word,BoVW)特征表達,以及費舍爾向量(Fisher Vector,FV)等尺寸壓縮方法。這些方法盡管發展了很多年,但是很難使圖像識別技術走出實驗室。

引入深度學習方法后,圖像識別的能力在很短的時間內得到了大幅度的提升。以2010年開始舉辦的大規模視覺識別挑戰賽(ILSVRC,ImageNet Large Scale Visual Recognition Challenge)競賽為例,2012年挑戰賽冠軍AlexNet的測試錯誤率為16.4%,這個網絡使用了8層神經網絡,2014年的冠軍InceptionNet的錯誤率為6.7%,使用了22層神經網絡,2015年的冠軍ResNet的錯誤率已經降至3.57%,共使用了152層神經網絡。

ILSVRC曾經是機器視覺領域最具權威的學術競賽,使用的數據集是ImageNet,由斯坦福大學美籍華裔科學家李飛飛教授主導。ILSVRC競賽項目主要包括:①圖像分類與目標;定位;②目標檢測;③視頻目標檢測;④場景分類。由于2016年ILSVRC的圖像識別錯誤率已經達到2.9%,遠遠超越人類5.1%的識別錯誤率,以后再進行這類競賽意義不大了,2017年7月26日,ILSVRC舉辦了最后一屆競賽,標志著一個時代的結束,但也是新征程的開始。從2018年起,圖像識別競賽由蘇黎世理工大學和谷歌等聯合發起的WebVision競賽接棒,重點在圖像理解。而且,WebVision使用的數據集抓取自浩瀚的網絡,不經過人工處理與標簽,難度大大增加了。

ImageNet圖像數據集始于2009年,當時李飛飛教授等在CVPR2009上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文中介紹了這個圖像數據集,之后應用于ImageNet挑戰賽。ImageNet是一個用于視覺對象識別軟件研究的大型可視化數據庫,包含1400余萬的圖像,2萬個類別(synsets),每個圖像通過眾包方式完成了手動標注,大類別包括:amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。

在語音識別方面,以往使用的是高斯混合模型(GMM)和隱馬爾科夫模型(HMM)。

仰仗不斷增長的計算力、大規模的數據集,在隱馬爾可夫模型中引入了深度神經網絡,產生了DNN-HMM模型聲學,使語音識別的性能得到大幅提升(2011年)。2016年,微軟人工智能研究部門(MSR AI)的團隊研發的語音識別系統將詞錯誤率[WER=(替換詞數+插入詞數+刪除詞數)/正確文本中的總詞數]降為5.9%,已經達到人類速記員的頂級水平。

早在2010年,Google公司開發的深度學習實現了貓臉自動識別,使得深度學習方法瞬間廣為人知。2015年,Google公司收購的DeepMind公司提出了一種全新的自動學習方法(Deep Q-Network,強化學習),這個方法在設置游戲任務后,機器能夠自動學習如何操作才能得到高分。這種方法被科學雜志Nature刊載,影響非凡。

深度學習的發展離不開大數據的支撐。現在人們不但可以通過手機智能App、傳感器獲得源源不斷的巨量數據用于開發深度學習應用,還可以直接從互聯網上獲得大量公開的語音和圖像數據用于深度學習應用的開發與測試,在這些公開的數據中,比較有影響力的包括用于圖像識別的數以百萬計的圖像(ImageNet:“http://www.image-net.org”、Places:“http://places.csail.mit.edu/downloadData.html”),用于語音識別的上千小時的語音數據(網上有開源的中英文數據集,如http://www.openslr.org/resources.php)。

硬件方面的進步主要是GPU(Graphics Processing Unit)的問世。GPU是圖形處理器,原本是作為專用的圖像顯卡,它集成了大量計算單元,能夠提供強大的并行運算的能力,后來被大量應用于通用的數值計算。GPU在10年的時間里,將計算速度提高了約1000倍。有了GPU強大的并行計算能力助陣,深度學習繁重的計算任務才能在規模不大的PC服務器集群中完成。

GPU主要由NVIDIA(英偉達)和AMD兩家公司提供,但因為NVIDIA提供了CUDA這個面向GPU并行計算的編程環境,所以是當下的主要廠商。NVIDIA提供的產品包括面向大眾的GeForce系列和面向科學計算的Tesla系列,以及面向嵌入式主板的Tegra系列。還提供了面向深度學習的快速計算庫。

GPU與CPU的差別:GPU采用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了Cache。而CPU不僅被Cache占據了大量空間,而且還有復雜的控制邏輯和諸多優化電路,相比之下計算能力只是CPU很小的一部分。所以,CPU擅長邏輯控制和通用類型數據運算;GPU擅長大規模并發計算,最好是計算量大,但不復雜,且重復多次的計算任務。

經過十多年的發展,深度學習在算法性能方面獲得了很多成果,歸納起來主要有以下三個方面:

? Dropout等防止過擬合方法;

? 新的激活函數;

? 增加預訓練方法。

主站蜘蛛池模板: 定襄县| 米林县| 田东县| 黄陵县| 色达县| 长汀县| 克山县| 宜川县| 喀喇沁旗| 阿拉善盟| 新竹县| 永州市| 杨浦区| 攀枝花市| 启东市| 三穗县| 吉水县| 德阳市| 班戈县| 健康| 岐山县| 常熟市| 岢岚县| 黑龙江省| 滁州市| 临沭县| 古浪县| 山丹县| 徐闻县| 高唐县| 丰城市| 鄂托克旗| 高邑县| 平遥县| 宽甸| 南川市| 荆州市| 宝应县| 合阳县| 鹤峰县| 桃园市|