- 智能網聯汽車技術概論
- 北京和緒科技有限公司
- 4358字
- 2020-08-28 16:38:01
2.2 智能網聯汽車領域圖像處理方法
智能網聯汽車中使用的圖像處理方法算法主要來源于計算機視覺中的圖像處理技術。傳統的計算機視覺識別過程大致可分為圖像輸入、預處理、特征提取、特征分類、匹配和完全識別,包括各關鍵領域的技術研究,如:輸入圖像噪聲的平滑、對比度增強和邊緣檢測信號的預處理、分類識別結果的再處理等算法。在智能網聯汽車應用領域中,圖像識別主要用于車牌、道路邊界、車道線、交通信號、交通標志、車輛/行人等交通參與者、自由行駛空間等對象的感知。
視覺傳感器將通過數字化的圖像對環境信息編碼,編碼的目的是使信息可以被計算機處理。典型的圖像編碼格式有灰度、RGB、CMYK等,根據顏色編碼、圖像屬性、分辨率、壓縮方式等特征,一些標準的圖像格式如BMP、JPG(JPEG)、PNG、TIF、GIF、PCX、TGA、EXIF、FXP等被定義用于標準化和結構化圖像的存儲,以及在網絡、各類操作系統和算法中的傳播與使用圖像。
以BMP位圖為例簡述圖像的數字化編碼過程,如圖2-9所示。位圖又稱點陣圖像、位映射圖像,它是由一系列像素組成的可識別的圖像。位圖應用比較廣泛,是一種與硬件設備無關的圖像文件格式。位圖的分辨率指圖像矩陣中縱向和側向像素點的數量乘積,在讀取過程中,掃描方式是按從左到右、從下到上的順序遍歷每個像素點,像素點存儲該點的顏色編碼,位圖中顏色編碼通常采用RGB或CMYK方式,其中RGB多用于屏幕顯示,CMYK多用于印刷。典型的BMP圖像文件由頭數據和信息數據構成,其中頭數據包含圖像文件的類型和顯示內容等信息,信息數據包含有BMP圖像的寬、高、壓縮方法,以及定義顏色等信息。

圖2-9 使用RGB編碼格式實現圖像采集和編碼的過程
計算機視覺技術試圖建立能夠從圖像中獲取信息的人工智能系統。視覺傳感器獲取的編碼后的數字圖像,為視覺算法提供結構化的數據,智能網聯汽車中涉及的圖像處理算法,就是在結構化的圖像信息提取其中包含的環境特征。機器視覺算法的基本步驟包含圖像數據的解碼、圖像特征的提取、識別圖像中的目標。圖像處理算法包括傳統的機器視覺,以及基于人工神經網絡的深度學習等技術。
圖像數據的解碼是利用前文敘述的圖像標準,將圖像中的信息提取出來,從而進行后續的特征提取等。圖像特征的提取是機器視覺中重要的環節,圖像是一種矩陣式的點存儲方式,通常由統計學等方法對圖像矩陣進行轉換,獲取可用于計算機處理的特征信息。特征提取的過程在信息處理中是一種對數據進行降維的處理方式,目的是找出待識別的各類目標在圖像中的典型特征,并通過計算機算法及數據結構描述圖像中的特征點,進而就可以通過特征描述判斷特征是否匹配,判斷當前圖像中是否存在待識別目標,以及待識別目標在圖像中的位置。
在傳統的圖像處理算法中,需要人工設計圖像中的典型特征,下面舉例介紹幾種典型的人工圖像特征:
(1)SIFT特征 尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)在不同的尺度空間搜索特征點及其方向,獲取圖像中的目標特征。SIFT所查找到的特征點是不因光照、仿射變換和噪聲等因素而變化的突出點,如角點、邊緣點、暗區的亮點及亮區的暗點等。
(2)HOG特征 方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征通過計算和統計圖像局部區域的梯度方向直方圖來構成特征。HOG特征被廣泛應用于圖像識別中,尤其在行人檢測中獲得了極大的成功。
(3)Haar-like特征 Haar-like特征由邊緣特征、線性特征、中心特征和對角線特征構成,這三類特征組合成特征模板。特征模板內有白色和黑色兩種矩形,并定義該模板的特征值為白色矩形像素和減去黑色矩形像素和。Haar-like特征值反映了圖像的灰度變化情況。
人工特征有直觀、可分析等優勢,在圖像識別領域得到了廣泛的應用。在實際應用中,還需要考慮相關算法的計算效率和特征描述的普適性等,所以一些評價特征的性能指標被提出來,如:特征對旋轉、尺度縮放、亮度變化的不變性,特征對視角變化、仿射變換、噪聲的穩定性。另外,在實際應用中,根據特征點提取方法和特征點描述方法的不同,又進行了滿足各類不同功能、性能要求的特征提取方法的細分,如SIFT、SURF、FAST、HOG、ORB、LBP等。
人工特征的缺點在于需要對圖像中的結構化信息有深入的理解,并能構建可直觀區分又能通過數字處理方法提取的特征。但是,對于計算機算法來說,可以更好地被處理和計算的信息,以上特征包含的特點并非是必需的。
隨著人工神經網絡的發展和圖像識別等相關數據集容量的不斷增加,以及GPU等并行數據處理芯片的廣泛應用,使得多層神經網絡訓練并提取特征成為可能。神經網絡逐層提取圖像矩陣中的數學特征,層間遞進地組合為全局特征,最終實現面向計算的特征提取。多層神經網絡的機制與SIFT和HOG的圖像梯度直方圖等人工特征在直觀描述上有很大不同。但是,通過一些研究過程的可視化顯示,多層神經網絡前端網絡層本質上是計算邊緣梯度和其他簡單的操作,類似人工特征的設計,在后端網絡層將局部模式組合成更全局的模式。最終結果是通過數據集訓練后的神經網絡,學習得到目標包含的典型特征,構成強大的特征提取器。
例如,比較典型的卷積神經網絡(CNN),是一種根據腦科學對人類感知機理研究中探索出的計算機特征學習算法。在圖2-10中顯示了卷積神經網絡提取圖像特征實現視覺識別的過程。首先,通過對網絡結構超參數的設計,確定網絡的結構;然后,將樣本圖像提供給網絡進行自學習,確定網絡中各項參數;最后,就可以使用確定好各項參數的網絡對實時獲取的圖像進行處理,從而獲得已經訓練后的環境/目標特征。這種特征是通過學習和訓練人工神經網絡獲得的,與人工設計的特征有顯著的區別。

圖2-10 卷積神經網絡提取圖像特征示意圖
目前,現有的基于人工神經網絡的目標檢測與識別算法大致有三類:基于區域建議的目標檢測和識別算法;基于回歸的目標檢測與識別算法;基于搜索的目標檢測與識別算法。
人工神經網絡使計算機能夠模擬人類思維,從而實現自行學習,這種識別方法可以消除圖像處理過程中人工特征的設計、提取、預處理等步驟,將感知過程簡化為輸入圖像-輸出結果的兩個步驟,使得視覺系統能夠快速理解環境,并具有自適應、自學習的特點。
圖像識別算法在智能網聯汽車領域的典型應用如下。
1.車道檢測
車道檢測的目標主要是檢測車道的形狀和車輛在車道上的位置,車道的形狀包括寬度和曲率等幾何參數,車輛位置包括車輛和道路的橫向偏移和偏航角。
在現代道路設計中,道路設計模式相對固定。因此,對于公路等道路類型,車道的幾何模型可以用固定的形式表示。車道由圓弧、直線、與曲線構成,緩和曲線有不同曲率(例如螺旋曲線)的圓弧連接過渡段或直線連接過渡段,車道與路面車輛的幾何模型元素包括車道曲率、弧長、偏航角等。基于視覺的車道檢測的方法有霍夫變換、透視變換、邊緣點擬合等。得到車道線原始特征的過程除了視覺圖像外,還可以通過激光雷達掃描。
(1)基于霍夫變換的車道線檢測 霍夫變換用圖像空間的邊緣數據點計算參數空間中的參考點的可能軌跡,并在累加器中統計軌跡上的參考點,最后選出參考點最多的軌跡。該軌跡表明在圖像空間上有一共線點較多的線,即圖像待識別中的車道線。霍夫變換檢測方法準確簡便,缺點是無法識別曲率半徑大于100m的車道線,還需要融合仿射變換、邊緣點擬合等其他檢測方法進行深入學習和算法設計。
(2)基于仿射變換的車道線檢測 仿射變換方法是通過仿射變換將前方的路面圖像轉換為俯視圖,并提取俯視圖中的車道線。該方法的優點是能找到多車道線,實時性好,但應用于復雜道路的穩定性差,仿射變換時圖像丟失較大,變換后的車道線在仿射圖中有時檢測不到,受周圍物體遮擋的影響嚴重,不適用于路況復雜、攝像頭視角小的前視野。
(3)基于邊緣點擬合的車道線檢測 邊緣點擬合的原理是:車道線為白色,路面為灰色,車道線和路面之間有穩定的灰色差。通過合理的圖像灰度閾值設定,可以提取車道線的邊緣。該方法的優點是計算量小,能擬合出曲率較大的車道線;缺點是環境適應性差,易受光照干擾,穩定性差。
車道線在檢測時很容易丟失,為了保證檢測精度,使用跟蹤算法可以提高檢測速度和精度。車輛的行駛過程是處于連續位移過程,相應的車道變化也是連續變化的,圖像中兩幀前后車道線斜率相差不大,位置距離也不會太遠,因此可以通過比較前后兩幀來控制車道線的斜率,在先前檢測到的車道線區域附近進行限定。
跟蹤的作用是預測道路特征在下一幀圖像中的位置,在較小的范圍內檢測道路特征,并提高效率。如圖2-11所示,如果在預測范圍內未檢測到道路特征,則使用估計或參考上一幀特征的位置。如果連續幀未檢測到道路特征,則啟動全圖像道路特征檢測。車道狀態需要考慮車道位置、速度、橫擺角和車輛行駛角度之間的關系。跟蹤算法一方面保證了為后續檢測縮小了搜索范圍,另一方面也保證了在攝像頭遮擋、車道線不清晰時檢測的連續性和穩定性。

圖2-11 車道線檢測中的跟蹤
2.語義分割
計算機視覺的一種圖像處理方式,是將整個圖像分成多個像素組,然后對分割出來的圖像進行標記和分類。語義分割是指圖像處理算法試圖從語義上理解圖像中每個像素的角色,該物體是汽車還是其他分類的物體,除了識別人、路、車、樹等,還必須確定每個物體的邊緣,需要使用語義分割模型來對物體做出像素級的分割,并通過語義形式提供物體的特征和位置等信息。
如圖2-12所示的語義分割實現例子中,原始圖像經過深度學習網絡進行逐層特征提取、像素級分割、特征識別、語義標注等過程,實現對圖像中各類目標的識別、分類、語義信息標注,為智能網聯汽車更豐富功能的實現,提供更多、更全面的環境信息。

圖2-12 圖像語義分割
3.立體視覺與場景流
立體視覺一般有以下三類實現方式:
1)利用雙目視覺傳感器建立三維描述,直接獲取距離信息的方法。這是一種主動模式立體視覺方法,深度圖由雙目攝像頭獲取。根據已知深度圖,通過數值逼近重建地表信息,并根據模型建立場景中的物體描述,實現基于圖像的環境理解功能。
2)利用一幅圖像提供的信息來推斷三維形狀的方法。根據場景中的灰度變化結合光學成像的透視原理和統計假設導出物體的輪廓和表面推斷出物體的形狀。
3)利用兩個或多個圖像在不同視點或不同時間提供的信息,重建三維結構的方法。
4.視覺里程計算法
視覺里程計算法的一個非常重要的特點是它只關心局部運動,而且大部分時間是指兩個時刻之間的運動。當以一定的時間間隔采樣時,可以估計運動物體在每個時間間隔內的運動。由于這種估計值會受噪聲的影響,故將前一時刻的估計誤差加入后一時刻的運動,會產生誤差累計。
5.目標跟蹤
目標跟蹤是指系統跟蹤特定場景中感興趣的一個或多個特定對象的過程,目標跟蹤在無人駕駛領域很重要,一方面可以提高后續檢測的準確性,另一方面能夠對目標的運動狀態進行跟蹤。
根據觀測模型,目標跟蹤算法可分為兩類:生成算法和判別算法。生成算法利用生成模型來描述目標表面特征,并使重構誤差最小化來搜索目標;判別算法又稱檢測跟蹤算法,通過區分待識別目標和道路、天空等背景,將待識別目標提取并進行跟蹤。