- 自動駕駛BEV感知算法指南
- 易顯維 虞凡
- 946字
- 2025-02-10 16:18:51
1.3.2 基于深度估計的方法
深度信息在將2D像素和特征提升到3D空間的過程中十分重要。因此,利用深度信息的基于深度估計的方法,成為解決透視角到鳥瞰視角轉換這一問題的新趨勢。在評估這些方法時,我們需要考慮視角轉換的方法、是否包含深度監督以及這些方法如何與基于IPM的方法集成。
基于深度估計的透視視角到鳥瞰視角的轉換主要有兩種策略,分別為基于點的視角轉換和基于體素的視角轉換。基于點的方法利用深度估計將像素轉換為3D空間中的點云,雖然相對簡單,且能夠集成成熟的深度估計和3D檢測技術,但在數據安全和訓練部署方面存在缺陷。基于體素的方法通過離散化3D空間并構建規則結構來進行特征轉換,這在大規模場景結構信息的覆蓋上更為有效,并且與端到端的視角轉換學習范式兼容。圖1-8展示了基于點的方法,將2D圖像像素轉換為偽激光雷達點云,并使用點云算法進行了3D目標檢測。

圖1-8 基于點的視角轉換方法將2D圖像像素轉換為偽激光雷達點云,并使用激光雷達進行3D物體檢測
在估計深度分布方面,不同的方法對應不同的策略。一些方法假設特征沿射線均勻分布,而另一些方法則明確估計深度分布并使用該分布構建3D特征。BEVDet方法進一步推動了基于深度估計的透視視角到鳥瞰視角轉換的研究。該方法遵循了LSS(詳見4.1.3節及4.1.4節)的范式,并創新性地提出了一種專門用于BEV的多視圖圖像3D檢測的框架。這個框架精心設計了4個關鍵組件:圖像視圖編碼器、視角轉換器、BEV編碼器和檢測頭。通過這些組件的協同工作,BEVDet實現了從原始圖像到精確BEV的轉換,并進行了高效的3D檢測。有關BEVDet的詳細內容將在5.1.1節介紹。
除了單目深度估計,立體匹配在多視圖設置下能夠更為準確地估計深度信息,進一步提升估計精度。在早期的多視圖設置研究中,為了實現全覆蓋并減少攝像頭數量,相鄰視圖間通常設置大量的重疊區域。然而,這種做法導致了深度估計更加依賴單目理解,從而增加了估計的復雜性。相比之下,基于BEV的方法在多視圖感知方面更具優勢,尤其在雙目設置下,深度估計的表現更為突出。近年來的雙目方法創新性地利用平面掃描表示來進行立體匹配和深度估計,通過精巧地從平面掃描特征體積中對體素和BEV特征進行采樣,實現了更為精確的3D檢測。
基于深度估計的方法通過利用深度信息將2D像素和特征提升到3D空間,實現更精確的視角轉換和3D檢測,進一步提高了算法的性能和效率。