官术网_书友最值得收藏!

1.3.4 基于Transformer的方法

除了上述方法外,Transformer也是將透視視角圖像映射到鳥瞰視角圖像的出色解決方案。

基于Transformer的方法設計一組BEV查詢,結合其位置編碼,利用BEV查詢和圖像特征間的交叉注意力機制執行視角轉換。特斯拉是第一個使用Transformer將透視視圖特征投影到BEV平面上的公司。

根據查詢的粒度,基于Transformer的方法可分為基于稀疏查詢、基于密集查詢和基于混合查詢三類。這里主要介紹前兩類。基于稀疏查詢的方法可以產生稀疏感知結果,適用于以目標為中心的感知任務,但在密集感知任務中面臨挑戰。基于密集查詢的方法在三維空間或BEV空間中預先分配空間位置,通過BEV查詢和圖像特征間的交互實現密集BEV表示,支持多種下游任務。

基于稀疏查詢的方法雖在目標檢測中表現出色,但其3D表示缺乏幾何結構意義,不適用于密集預測任務;而密集查詢能為BEV空間提供豐富的表示,但大量查詢導致計算負擔沉重,這就要求注意力機制更高效。

DETR3D是一種典型的基于Transformer的方法。它遵循稀疏查詢的框架,專注于多相機輸入的3D檢測,通過基于幾何的特征采樣過程取代交叉注意力,并使用校準矩陣將參考點投影到圖像平面上,實現對應的多視圖、多尺度圖像特征的采樣,以進行端到端的3D邊界框預測。有關DETR3D的詳細介紹見6.2.2節。

在Transformer中,交叉注意力表現出與數據相關的特性,一方面,其加權矩陣會受到輸入數據的影響。這種對數據的依賴使得Transformer在表達上更加豐富,但同時也增加了訓練的難度。另一方面,由于交叉注意力是排列不變的,Transformer需要借助位置編碼來區分輸入的序列順序。

基于Transformer的方法能夠利用注意力機制和位置編碼實現視角轉換,為感知提供有效的解決方案。為了進一步提升算法性能,越來越多的方法開始嘗試將3D幾何約束引入基于Transformer的透視視角到鳥瞰視角轉換的框架中,以增強網絡對空間關系的感知能力,提高轉換效率和準確性。

根據輸入模態劃分,BEV感知算法可以分為以下兩種類型。

基于圖像的BEV感知算法:這類算法主要依賴視覺傳感器,如攝像頭獲取的圖像數據。它們將多個視角的圖像序列轉換為BEV特征,用于后續感知任務,如輸出物體的3D檢測框或鳥瞰視圖下的語義分割。這類算法充分利用了視覺感知的豐富語義信息,但可能受到深度測量準確性的限制。

基于多模態的BEV感知算法:這類算法融合了來自不同傳感器(如視覺傳感器、激光雷達、毫米波雷達等)的信息,以構建BEV特征。這種融合可以取長補短,充分利用各種傳感器的優點,彌補各自的不足。

主站蜘蛛池模板: 湛江市| 五家渠市| 汽车| 武隆县| 梁河县| 阆中市| 南通市| 神池县| 临猗县| 揭阳市| 文成县| 淄博市| 延边| 海南省| 济南市| 鹿邑县| 柏乡县| 灌阳县| 肥东县| 香港| 申扎县| 安吉县| 徐闻县| 诸城市| 吴旗县| 开原市| 沈丘县| 宁化县| 三明市| 龙海市| 彭州市| 宜良县| 武安市| 武邑县| 漠河县| 保定市| 名山县| 微山县| 鄂托克前旗| 南召县| 乳山市|