- 機器視覺與機器學習:算法原理、框架應用與代碼實現
- 宋麗梅 朱新軍編著
- 2209字
- 2020-09-18 18:33:15
1.2 機器視覺研究的任務、基本內容、應用領域與困難
1.2.1 任務
機器視覺系統被用于分析圖像和生成對被成像物體的描述。這些描述必須包含關于被成像物體的某些信息,用于完成某些特殊的任務。機器視覺系統可以看作一個與周圍環境進行交互的部分,它是關于場景的反饋回路中的一個單元,而其他單元則被用于決策與執行決策。
1.2.2 基本內容
機器視覺研究的內容非常廣泛,比如以下幾個方面。
● 相機標定與圖像形成。
● 二值圖像分析、邊緣檢測與圖像濾波等低水平圖像處理問題。
● 圖像分割,紋理描述與分割。
● 紋理分析。
● Shape From X三維視覺。
● 立體視覺。
● 光流與運動分析。
● 目標匹配、檢測與識別。
● 3D傳感、形狀描述、目標跟蹤。
● 圖像、視頻理解。
1.2.3 應用領域
機器視覺在很多領域中已經得到了廣泛應用。
1)工業自動化生產線:將圖像和視覺技術用于工業自動化,可以提高生產效率和生產質量,同時還可以避免人的疲勞、注意力不集中等帶來的誤判。具體例子有工業探傷、自動流水線和裝配、自動焊接、PCB檢查以及各種危險場合工作的機器人等。
2)視覺導航:用于無人駕駛飛機、無人駕駛汽車、移動機器人、精確制導及自動巡航裝備捕獲目標和確定距離,既可以避免人的參與及由此帶來的危險,也可提高精度和速度。無人駕駛汽車技術運用了各種攝像頭、激光設備、雷達傳感器等,并根據攝像頭捕獲到的圖像及利用雷達和激光設備的相互配合來獲取汽車當前的速度、前方的交通標識、所在車道、與周圍行人與汽車的距離等信息,并以此來做出加速、減速、停車、左轉、右轉等判斷,從而控制汽車實現無人駕駛。
3)光學字符識別:閱讀信上的手寫郵政編碼和自動識別號碼牌。
4)機器檢驗:快速檢驗部件質量,用立體視覺在特定的光照環境下測量飛機機翼或汽車車身配件的容差。
5)零售業:針對自動結賬通道的物體識別及基于人臉識別的支付功能。
6)醫學成像:配準手術前和手術中的成像,或關于人類老化過程中大腦形態的長期研究。
7)人機交互:讓計算機借助人的手勢、嘴唇動作、軀干運動、表情等了解人的要求而執行指令,這既符合人類的互動習慣,也可增加交互便捷性和臨場感。微軟公司應用于Xbox360上的Kinect包括了人臉檢測、人臉識別與跟蹤、動作跟蹤、表情判斷、動作識別與分類等機器視覺領域的前沿技術。
8)虛擬現實:飛機駕駛員訓練、手術模擬、場景建模、戰場環境仿真等。
更多的應用可參考David Lowe的工業視覺應用網頁(網址為http://www.cs.ubc.ca/spi-der/lowe/vision.html)。總之,機器視覺的應用是多方面的,它會得到越來越廣泛的應用。
1.2.4 困難
使機器具有看的能力不是一件容易的事情。那么,機器視覺的研究有哪些困難?對于這個問題,可以從以下六個方面理解。
1)在3D向2D轉換過程中損失信息。在相機或者人眼圖像獲取過程中,會出現3D向2D轉換過程中的信息損失。這由針孔模型來近似或者透鏡成像模型決定,在成像過程中丟失了深度信息。在投影變換過程中,會將點沿著射線作映射,但不保持角度和共線性。
2)解釋。人類可以自然而然地對圖像進行解釋,而這一任務卻是機器視覺要解決的難題之一。當人們試圖理解一幅圖像時,以前的知識和經驗就會起作用,人類的推理能力可將長期積累的知識用于解決新的問題。賦予機器理解能力是機器視覺與人工智能的學科研究者不斷努力的目標。
3)噪聲。真實世界中的測量都含有噪聲,這就需要使用相應數學工具和方法對含有噪聲的視覺感知結果進行分析與處理,從而較好地復原真實視覺數據。
4)大數據。圖像數據是巨大的,視頻數據相應地會更大。雖然技術上的進步使得處理器和內存不足已經不是問題,但是,數據處理的效率仍然是一個重要的問題。
5)亮度測量。在成像傳感時,用圖像亮度近似表示輻射率。輻射率依賴于輻照度(輻照度與光源類型、強度和位置有關)、觀察者位置、表面的局部幾何性質和表面的反射特效等。其逆任務是病態的,比如由亮度變化重建局部表面方向。通常病態問題的求解是極其困難的。
6)局部窗口和對全局視圖的需要。通常,圖像分析與處理的是其中的局部像素,也就是說通過小孔來看圖像。通過小孔看世界很難實現全局上下文的理解。20世紀80年代,McCarthy指出構造上下文是解決推廣性問題的關鍵一步,而僅從局部來看或只有一些局部小孔可供觀察時,解釋一幅圖像通常是非常困難的。
1.2.5 機器視覺與人類視覺的關系
機器視覺是研究如何能讓計算機像人類那樣通過視覺實現“see”的學科。視覺實際上包含兩個方面:“視”和“覺”,也就是說機器視覺不僅要捕獲場景信息還需要理解場景信息。具體來講,它是利用相機和計算機代替人眼,使得機器擁有類似于人類的對目標進行分割、分類、識別、跟蹤、判別和決策的功能。對人類來說非常簡單的視覺任務對于機器卻可能異常復雜。在很多方面,機器視覺的能力還遠遠不如人類視覺,原因在于人類經過大量的學習、認識和了解,已經對現實世界中存在的各種事物有了準確、完善的分類歸納能力,而計算機則缺少相應的過程,就像一個嬰兒很難分清不同的人,很難辨別物體的形狀和外觀、人的表情等,但經過與外界的交互、學習就能逐漸掌握對事物和場景的識別和理解能力。讓計算機達到人類的視覺能力需要一個完善的學習過程。此外,生物的眼睛經歷了5億多年的進化,視覺系統不斷完善,而相機的出現才短短一百多年。
在圖像理解等高級機器視覺問題上,計算機的視覺能力通常低于人類。人類及其他生物的眼睛具有的強大功能,所以機器視覺研究過程中借鑒了生物視覺的功能原理,比如Gabor濾波器的頻率和方向表達同人類視覺系統類似,卷積神經網絡的構建參考了人類大腦提取視覺信息的方式。
- Vue.js框架與Web前端開發從入門到精通
- Wordpress 3 Complete
- 攝影照片修飾完全自學手冊
- COSPLAY的后期藝術:Lightroom+Photoshop修圖技法攻略
- SOLIDWORKS Visualize 實例詳解(微視頻版)
- 新編AutoCAD 2016從入門到精通
- After Effects CS6入門與提高
- 新編AutoCAD制圖快捷命令速查一冊通
- Photoshop+CorelDRAW 字體設計與創意:草圖/實現/包裝(微課版)
- 中文版Maya 2014基礎培訓教程
- Photoshop CS6數碼照片處理入門到精通
- 中文版Photoshop CS5實用教程(第2版)
- Instant Apache Sqoop
- Photoshop 2020實戰從入門到精通(超值版)
- Premiere視頻編輯案例教程:Premiere Pro 2020(微課版·第2版)