官术网_书友最值得收藏!

1.2 計算機視覺學習的基礎與研究方向

計算機視覺是一個專門教計算機如何去“看”的學科,更進一步的解釋就是使用機器替代生物眼睛來對目標進行識別,并在此基礎上做出必要的圖像處理,加工所需要的對象。

使用深度學習并不是一件簡單的事,建立一項有真正識別能力的計算機視覺系統更不容易。從學科分類上來說,計算機視覺的理念在某些方面其實與其他學科有很大一部分的重疊,其中包括:人工智能、數字圖像處理、機器學習、深度學習、模式識別、概率圖模型、科學計算,以及一系列的數學計算等。這些領域急需相關研究人員學習其基礎知識,理解并找出規律,從而揭示那些我們以前不曾注意過的細節。

1.2.1 學習計算機視覺結構圖

對于相關的研究人員,可以把使用深度學習解決計算機視覺的問題歸納成一個結構關系圖(如圖1-7所示)。

圖1-7 計算機視覺結構圖

對于計算機視覺學習來說,選擇一個好的訓練平臺是重中之重。因為對于絕大多數的學習者來說,平臺的易用性以及便捷性往往決定著學習的成敗。目前常用的是TensorFlow、Caffe、PyTroch等。

其次是模型的使用。自2006年深度學習的概念被確立以后,經過不斷的探索與嘗試,研究人員確立了模型設計是計算機視覺訓練的核心內容,其中應用廣泛使用的是AlexNet、VGGNet、GoogleNet、ResNet等。

除此之外,速度和周期也是需要考慮的一個非常重要的因素,如何使得訓練速度更快,如何使用模型更快地對物體進行辨識,這是計算機視覺中非常重要的問題。

所有的模型設計和應用最核心的部分就是任務處理的對象,這里主要包括檢測、識別、分割、特征點定位、序列學習5個大的任務,可以說任何計算機視覺的具體應用都是由這5個任務中的一個或者幾個組合而成的。

1.2.2 計算機視覺的學習方式和未來趨勢

“給計算機連上一個攝像頭,讓計算機描述它看到了什么。”這是計算機視覺作為一門學科被提出時就決定下來的目標,如今大量的研究人員為這個目標孜孜不倦地工作著。

拿出一張圖片,上面是一只狗和一只貓,讓一個人去辨識(如圖1-8所示)。無論圖片上的貓或者狗的形象與種類如何,人類總是能夠精確地區分圖片是貓還是狗。而把這種帶有標注的圖片送到神經網絡模型中去學習,這種學習方式稱為“監督學習”。

圖1-8 貓和狗

雖然目前來說,在監督學習的計算機視覺領域,深度學習取得了重大成果,但是相對于生物視覺學習和分辨方式的“半監督學習”和“無監督學習”,還有更多更重要的內容急需解決,比如視頻里物體的運動、行為存在特定規律;在一張圖片里,一個動物也是有特定的結構的,利用這些視頻或圖像中特定的結構可以把一個無監督的問題轉化為一個有監督問題,然后利用有監督學習的方法來學習。這是計算機視覺的學習方式。

MIT給機器“看電視劇”預測人類行為,MIT的人工智能為視頻配音,迪士尼研究院可以讓AI直接識別視頻里正在發生的事。除此之外,計算機視覺還可以應用在那些人類能力所限、感覺器官不能及的領域和單調乏味的工作上——在微笑瞬間自動按下快門,幫助汽車駕駛員泊車入位,捕捉身體的姿態與電腦游戲互動,工廠中準確地焊接部件并檢查缺陷,忙碌的購物季節幫助倉庫分揀商品,離開家時掃地機器人清潔房間,自動將數碼照片進行識別分類。

或許在不久的將來(如圖1-9所示),超市電子秤在稱重的同時就能辨別出蔬菜的種類;門禁系統能分辨出是帶著禮物的朋友,還是手持撬棒即將行竊的歹徒;可穿戴設備和手機幫助我們識別出鏡頭中的物體并搜索出相關信息。更奇妙的是,它還能超越人類雙眼的感官,用聲波、紅外線來感知這個世界,觀察云層的洶涌起伏預測天氣,監測車輛的運行調度交通,甚至突破我們的想象,幫助理論物理學家分析超過三維的空間中物體的運動。

這些,似乎并不遙遠。

圖1-9 計算機視覺的未來

主站蜘蛛池模板: 巴里| 怀来县| 金门县| 泸水县| 蒲江县| 徐州市| 万荣县| 鄂温| 江西省| 乌兰察布市| 朔州市| 云阳县| 尉氏县| 清河县| 攀枝花市| 芦溪县| 成安县| 射阳县| 金乡县| 宜兰市| 遵化市| 石棉县| 巫溪县| 修水县| 安宁市| 屏东市| 体育| 新安县| 茂名市| 鹤峰县| 安仁县| 临湘市| 潼南县| 湖南省| 武义县| 富阳市| 佛冈县| 武平县| 信丰县| 万荣县| 延长县|