官术网_书友最值得收藏!

2.2 深度學(xué)習(xí)在視覺上的應(yīng)用

計算機視覺中比較成功的深度學(xué)習(xí)的應(yīng)用,包括人臉識別、圖片問答問題、物體檢測問題、物體跟蹤。

2.2.1 人臉識別

這里說人臉識別中的人臉比對,即得到一張人臉,與數(shù)據(jù)庫里的人臉進行比對;或同時給兩張人臉,判斷是不是同一個人。

這方面比較超前的是湯曉鷗教授,他們提出的DeepID算法在LWF上做得比較好。他們也是用卷積神經(jīng)網(wǎng)絡(luò),在做比對時,兩張人臉分別提取了不同位置特征,然后進行互相比對,得到最后的比對結(jié)果。最新的DeepID-3算法,在LWF達到了99.53%的準確度,與肉眼識別結(jié)果相差無幾。

2.2.2 圖片問答問題

這是2014年左右興起的課題,即給張圖片同時問出問題,然后讓計算機回答。圖片問答問題效果圖如圖2-8所示,有一個辦公室靠海的圖片,然后問“What is behind the table?(桌子后面有什么?)”,神經(jīng)網(wǎng)絡(luò)輸出應(yīng)該是“chairs window(椅子和窗戶)”。

圖2-8 圖片問答問題效果圖

這一應(yīng)用引入了LSTM網(wǎng)絡(luò),這是一個專門設(shè)計出來具有一定記憶能力的神經(jīng)單元。特點是,會把某一個時刻的輸出作為下一個時刻的輸入??梢哉J為它比較適合語言等,有時間序列關(guān)系的場景。因為我們在讀一篇文章和句子的時候,對句子后面的理解是基于前面對詞語的記憶。

圖像問答問題是基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM單元的結(jié)合,來實現(xiàn)圖像問答的。LSTM網(wǎng)絡(luò)輸出就應(yīng)該是想要的答案,而輸入的就是上一個時刻的輸入,以及圖像的特征,即問句的每個詞語。

2.2.3 物體檢測問題

1.Region CNN

深度學(xué)習(xí)在物體檢測方面也取得了非常好的成果。2014年的Region CNN算法,基本思想是首先用一個非深度的方法,在圖像中提取可能是物體的圖像塊,然后深度學(xué)習(xí)算法根據(jù)這些圖像塊,判斷屬性和一個具體物體的位置,如圖2-9所示。

圖2-9 CNN分類

為什么要用非深度的方法先提取可能的圖像塊?因為在進行物體檢測的時候,如果用戶用掃描窗的方法進行物體檢測,則要考慮掃描窗大小的不一樣,長寬比和位置的不一樣,如果每一個圖像塊都要過一遍深度網(wǎng)絡(luò),那么這種時間是用戶無法接受的。

所以用了一個折中的方法,叫Selective Search。先把完全不可能是物體的圖像塊去除,只剩2000左右的圖像塊放到深度網(wǎng)絡(luò)里面判斷。取得的成績AP是58.5,比以往幾乎翻了一倍。有一點不盡如人意的是,Region CNN的速度非常慢,需要10~45s處理一張圖片。

2.Faster R-CNN

Faster R-CNN是一個超級加速版R-CNN方法。它的速度達到了每秒七幀,即一秒鐘可以處理七張圖片。技巧在于不是用圖像塊來判斷是物體還是背景的,而是把整張圖片一起扔進深度網(wǎng)絡(luò)里,讓深度網(wǎng)絡(luò)自行判斷哪里有物體,物體的方塊在哪里,種類是什么。經(jīng)過深度網(wǎng)絡(luò)運算的次數(shù)從原來的2000次降到一次,速度大大提高了。

Faster R-CNN提出了讓深度學(xué)習(xí)自己生成可能的圖像塊,再用同樣深度網(wǎng)絡(luò)來判斷圖像塊是否是背景?同時進行分類,還要把邊界和估計出來。

Faster R-CNN可以做到又快又好,在VOC2007上檢測AP達到73.2,速度也提高了200~300倍。

3.YOLO

Facebook提出來的YOLO網(wǎng)絡(luò),也是進行物體檢測的,最快達到每秒鐘155幀,達到了完全實時。它讓一整張圖像進入到神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)自己判斷這物體可能在哪里,可能是什么。但它縮減了圖像塊的個數(shù),從原來Faster R-CNN的2000多個縮減到了98個,YOLO結(jié)構(gòu)圖如圖2-10所示。

圖2-10 YOLO結(jié)構(gòu)圖

同時取消了Faster R-CNN里面的RPN結(jié)構(gòu),代替Selective Search結(jié)構(gòu)。YOLO里面沒有RPN這一步,而是直接預(yù)測物體的種類和位置。

YOLO的代價就是精度下降,在每秒155幀時精度只有52.7,每秒45幀時的精度是63.4。

4.SSD

在arXiv上出現(xiàn)的最新算法稱為Single Shot MultiBox Detector,即SSD。SSD結(jié)構(gòu)圖如圖2-11所示。

圖2-11 SSD結(jié)構(gòu)圖

SSD是YOLO的超級改進版,吸取了YOLO的精度下降的教訓(xùn),同時保留速度快的特點。它能達到每秒58幀,精度有72.1。速度超過Faster R-CNN速度的8倍,但達到類似的精度。

2.2.4 物體跟蹤

物體跟蹤就是在視頻里面第一幀時鎖定感興趣的物體,讓計算機跟著走,不管怎么旋轉(zhuǎn)晃動,甚至躲在樹叢后面也要跟蹤。

主站蜘蛛池模板: 邵阳县| 孝义市| 宁陵县| 浦北县| 周口市| 军事| 祁东县| 山西省| 宣汉县| 沿河| 儋州市| 盘山县| 武隆县| 清水县| 抚远县| 大洼县| 神池县| 靖江市| 许昌市| 佛冈县| 东莞市| 灵宝市| 池州市| 磐安县| 安义县| 巢湖市| 泰宁县| 大余县| 东辽县| 山东| 阿勒泰市| 五家渠市| 曲水县| 广宁县| 芦溪县| 子洲县| 枝江市| 奉化市| 军事| 绵竹市| 华宁县|