- 自動駕駛BEV感知算法指南
- 易顯維 虞凡
- 961字
- 2025-02-10 16:18:52
1.3.4 基于Transformer的方法
除了上述方法外,Transformer也是將透視視角圖像映射到鳥瞰視角圖像的出色解決方案。
基于Transformer的方法設計一組BEV查詢,結合其位置編碼,利用BEV查詢和圖像特征間的交叉注意力機制執行視角轉換。特斯拉是第一個使用Transformer將透視視圖特征投影到BEV平面上的公司。
根據查詢的粒度,基于Transformer的方法可分為基于稀疏查詢、基于密集查詢和基于混合查詢三類。這里主要介紹前兩類。基于稀疏查詢的方法可以產生稀疏感知結果,適用于以目標為中心的感知任務,但在密集感知任務中面臨挑戰。基于密集查詢的方法在三維空間或BEV空間中預先分配空間位置,通過BEV查詢和圖像特征間的交互實現密集BEV表示,支持多種下游任務。
基于稀疏查詢的方法雖在目標檢測中表現出色,但其3D表示缺乏幾何結構意義,不適用于密集預測任務;而密集查詢能為BEV空間提供豐富的表示,但大量查詢導致計算負擔沉重,這就要求注意力機制更高效。
DETR3D是一種典型的基于Transformer的方法。它遵循稀疏查詢的框架,專注于多相機輸入的3D檢測,通過基于幾何的特征采樣過程取代交叉注意力,并使用校準矩陣將參考點投影到圖像平面上,實現對應的多視圖、多尺度圖像特征的采樣,以進行端到端的3D邊界框預測。有關DETR3D的詳細介紹見6.2.2節。
在Transformer中,交叉注意力表現出與數據相關的特性,一方面,其加權矩陣會受到輸入數據的影響。這種對數據的依賴使得Transformer在表達上更加豐富,但同時也增加了訓練的難度。另一方面,由于交叉注意力是排列不變的,Transformer需要借助位置編碼來區分輸入的序列順序。
基于Transformer的方法能夠利用注意力機制和位置編碼實現視角轉換,為感知提供有效的解決方案。為了進一步提升算法性能,越來越多的方法開始嘗試將3D幾何約束引入基于Transformer的透視視角到鳥瞰視角轉換的框架中,以增強網絡對空間關系的感知能力,提高轉換效率和準確性。
根據輸入模態劃分,BEV感知算法可以分為以下兩種類型。
基于圖像的BEV感知算法:這類算法主要依賴視覺傳感器,如攝像頭獲取的圖像數據。它們將多個視角的圖像序列轉換為BEV特征,用于后續感知任務,如輸出物體的3D檢測框或鳥瞰視圖下的語義分割。這類算法充分利用了視覺感知的豐富語義信息,但可能受到深度測量準確性的限制。
基于多模態的BEV感知算法:這類算法融合了來自不同傳感器(如視覺傳感器、激光雷達、毫米波雷達等)的信息,以構建BEV特征。這種融合可以取長補短,充分利用各種傳感器的優點,彌補各自的不足。