- AI新基建:數智化浪潮下的商業變革與產業機遇
- 梁洪波 王雷 楊愛喜
- 18字
- 2021-05-26 15:26:43
第5章 實現路徑:AI的核心技術及其應用
計算機視覺技術
計算機視覺(computer vision, CV)是一門研究如何使計算機具備像人眼那樣的視覺功能的科學。其主要原理在于利用攝像機和電腦來代替人眼,使得計算機具備像人類視覺那樣可以對各種目標進行識別、分辨、跟蹤、判斷和決策的功能。
計算機視覺的相關技術包括圖像處理技術、信號處理技術、概率統計分析技術、計算幾何技術、神經網絡技術、機器學習技術等。借助這些技術,計算機能夠實現對各種視覺信息的分析和處理。可以說,它是利用計算機技術和設備對人類視覺的一種模擬。作為人工智能領域的重要組成部分,計算機視覺能夠使計算機基于二維圖像認知三維環境信息。
◆人工智能與計算機視覺
計算機視覺與人工智能之間既有聯系,又有區別。人工智能是讓計算機去理解圖像、語音和文字,主要涉及看、聽、讀三種感知方式。而視覺是人工智能領域的核心,是讓計算機實現起來最困難的部分。人類視覺所能感知到的信息占所有感知信息的80%左右,因此,計算機要模擬人類視覺在技術上需要攻克更多的難題。人工智能的革命將從計算機視覺開始,這是其他領域無法勝任的角色。
人工智能非常重視計算機的推理和決策能力,而計算機視覺還沒有達到這個階段,它主要處于表達圖像信息、識別物體的階段。計算機要識別物體和理解場景也需要對圖像特征進行推理和決策,但這種推理和決策與人工智能的推理和決策是有區別的。計算機視覺和人工智能之間主要有以下三方面的關系:計算機視覺是實現人工智能需要解決的一大難題;計算機視覺是人工智能變革的重要引擎,人工智能的許多技術和應用都是從計算機視覺衍生出來的,然后再重新運用于人工智能領域中去;計算機視覺的實現要基于大量人工智能的應用。
◆計算機視覺技術的原理
計算機視覺能利用各種成像系統發揮視覺器官的作用,將各種視覺信息存儲到計算機內,并利用計算機發揮人腦作用,實現對這些信息的處理和解釋。計算機視覺的終極研究目標是使計算機擁有類似于人類的視覺功能,使機器能像人一樣觀察和理解這個世界,并能自主適應周圍的環境。不過,在實現這一終極目標之前,人類需要先完成計算機視覺的中期目標,即使計算機視覺系統能利用某種程度的智能,基于視覺敏感和反饋,完成一定的任務。
另外,還需要指出一點:要讓計算機在視覺系統中代替人眼的作用,并不意味著一定要讓計算機按照人類視覺處理信息的方法來處理視覺信息。一般來說,計算機視覺只需要根據計算機系統自身的特點來處理視覺信息即可。
如果有人問世界上最強大、最完善的視覺系統是什么,根據迄今為止的認知,答案一定是人類視覺系統。無疑,人類對自身視覺處理機制的研究能夠在一定程度上啟發和指導計算機視覺的研究。同樣,利用計算機信息處理技術和方法研究人類視覺的機理并建立相關的計算理論,也是一個非常重要和有趣的研究領域。
◆計算機視覺的應用領域
計算機視覺主要應用于以下領域:一是對照片、視頻資料的解釋,如對航空照片、衛星照片、視頻片段等的解釋和精確制導;二是移動機器人視覺導航;三是醫學輔助診斷;四是工業機器人的手眼系統;五是地圖繪制;六是物體三維形狀分析與識別;七是智能人機接口。
早期,利用計算機視覺系統處理數字圖像的主要目的是提高照片的質量,在這個過程中,需要利用到各種數字技術對航空圖片、衛星圖片等進行輔助處理。具體來說,就是進行圖片的讀取、判別和分類。不過,在實際操作中,需要判讀的照片數量巨大,于是,人們開始想方設法創造出一種自動的視覺系統來代替人類完成這項工作。在此背景下,設計者們紛紛投入到視覺系統的研發之中,并催生出專門用于判讀航空照片和衛星照片的各種視覺系統和方法。
自動判讀只是視覺系統需要完成的第一步,接下來還要進一步確定目標的性質,這就需要引入實時自動分類功能,并將視覺系統與制導系統相結合。目前,普遍使用的制導方式有三類,分別是激光制導、圖像制導和電視制導。例如,導彈系統就會利用到圖像制導,即利用圖像來進行精確制導,不過這種制導方式還需要與慣性制導相結合。計算機視覺在工業機器人手眼系統中的應用也非常成功。在工業生產中,光照條件、城鄉因素等諸多因素都是可控的,這大大簡化了對計算機視覺的功能要求,更加便于形成可靠的工業機器人手眼系統。
與工業機器人相比,移動機器人對計算機視覺的功能要求更加苛刻,因為移動機器人具有行為能力,在解決計算機視覺問題的同時還要解決行為規劃問題,或者說要讓計算機視覺對周圍環境進行理解。隨著移動機器人的發展,人們對計算機視覺的功能要求也越來越多,比如要求計算機視覺具備道路跟蹤、目標識別、障礙回避等諸多功能。現階段,人們主要采用遙控和遠視的方式來設計移動機器人視覺系統,整體的研究尚處于實驗階段。
計算機視覺在醫學上的應用主要涉及壓縮、存儲、傳輸、分類、判讀等功能。對醫生來說,計算機視覺還可作為一種輔助訓練手段。此外,計算機視覺還可用于三維結構的快速重建。長期以來,地圖繪制都是一件費時費力的工作,需要投入大量的人力、物力和時間。傳統的地圖繪制工作都是由人工測量并繪制完成。隨著繪制技術的突破,地圖繪制的效率有了較大的提高,主要利用航測和立體視覺技術來繪制地圖。在繪制地圖過程中,繪制員會利用立體視覺技術將航測數據生成物體三維形狀,同時利用計算機視覺對這些物體三維形狀進行分析與識別,提取和表示景物的特征,存儲、檢索和匹配識別相關知識,形成三維景物分析系統。
近年來,生物特征識別技術獲得快速發展和應用,并受到社會各界的廣泛重視。生物特征識別技術主要是對人的面部、虹膜、指紋、聲音等特征進行識別,這些識別大多都需要利用到視覺信息。生物特征識別技術可以用于構成智能人機接口。
目前,除了一些高端工業計算機和特殊儀器外,計算機與人之間的交流仍處于機械式階段。臺式電腦、筆記本電腦等普通計算機還無法自動識別用戶的真實身份,輸入手段依然以鍵盤、鼠標為主,其他方式尚不成熟。將計算機視覺應用到計算機上,可以通過檢測用戶是否存在改變計算機的運行狀態,通過對人的面部、虹膜、指紋、聲音等特征的識別鑒別用戶身份,同時也能通過識別用戶點頭、搖頭等身體姿勢給出合理化建議。另外,基于計算機視覺的人機交互方式,還可應用于入口安全檢測、邊境人員驗放等多種場合。