财神方位口诀

書名：自動(dòng)駕駛BEV感知算法指南
作者名：易顯維虞凡
本章字?jǐn)?shù)： 961字
更新時(shí)間： 2025-02-10 16:18:52

1.3.4 基于Transformer的方法

除了上述方法外，Transformer也是將透視視角圖像映射到鳥瞰視角圖像的出色解決方案。

基于Transformer的方法設(shè)計(jì)一組BEV查詢，結(jié)合其位置編碼，利用BEV查詢和圖像特征間的交叉注意力機(jī)制執(zhí)行視角轉(zhuǎn)換。特斯拉是第一個(gè)使用Transformer將透視視圖特征投影到BEV平面上的公司。

根據(jù)查詢的粒度，基于Transformer的方法可分為基于稀疏查詢、基于密集查詢和基于混合查詢?nèi)悺＿@里主要介紹前兩類。基于稀疏查詢的方法可以產(chǎn)生稀疏感知結(jié)果，適用于以目標(biāo)為中心的感知任務(wù)，但在密集感知任務(wù)中面臨挑戰(zhàn)。基于密集查詢的方法在三維空間或BEV空間中預(yù)先分配空間位置，通過BEV查詢和圖像特征間的交互實(shí)現(xiàn)密集BEV表示，支持多種下游任務(wù)。

基于稀疏查詢的方法雖在目標(biāo)檢測中表現(xiàn)出色，但其3D表示缺乏幾何結(jié)構(gòu)意義，不適用于密集預(yù)測任務(wù)；而密集查詢能為BEV空間提供豐富的表示，但大量查詢導(dǎo)致計(jì)算負(fù)擔(dān)沉重，這就要求注意力機(jī)制更高效。

DETR3D是一種典型的基于Transformer的方法。它遵循稀疏查詢的框架，專注于多相機(jī)輸入的3D檢測，通過基于幾何的特征采樣過程取代交叉注意力，并使用校準(zhǔn)矩陣將參考點(diǎn)投影到圖像平面上，實(shí)現(xiàn)對應(yīng)的多視圖、多尺度圖像特征的采樣，以進(jìn)行端到端的3D邊界框預(yù)測。有關(guān)DETR3D的詳細(xì)介紹見6.2.2節(jié)。

在Transformer中，交叉注意力表現(xiàn)出與數(shù)據(jù)相關(guān)的特性，一方面，其加權(quán)矩陣會(huì)受到輸入數(shù)據(jù)的影響。這種對數(shù)據(jù)的依賴使得Transformer在表達(dá)上更加豐富，但同時(shí)也增加了訓(xùn)練的難度。另一方面，由于交叉注意力是排列不變的，Transformer需要借助位置編碼來區(qū)分輸入的序列順序。

基于Transformer的方法能夠利用注意力機(jī)制和位置編碼實(shí)現(xiàn)視角轉(zhuǎn)換，為感知提供有效的解決方案。為了進(jìn)一步提升算法性能，越來越多的方法開始嘗試將3D幾何約束引入基于Transformer的透視視角到鳥瞰視角轉(zhuǎn)換的框架中，以增強(qiáng)網(wǎng)絡(luò)對空間關(guān)系的感知能力，提高轉(zhuǎn)換效率和準(zhǔn)確性。

根據(jù)輸入模態(tài)劃分，BEV感知算法可以分為以下兩種類型。

基于圖像的BEV感知算法：這類算法主要依賴視覺傳感器，如攝像頭獲取的圖像數(shù)據(jù)。它們將多個(gè)視角的圖像序列轉(zhuǎn)換為BEV特征，用于后續(xù)感知任務(wù)，如輸出物體的3D檢測框或鳥瞰視圖下的語義分割。這類算法充分利用了視覺感知的豐富語義信息，但可能受到深度測量準(zhǔn)確性的限制。

基于多模態(tài)的BEV感知算法：這類算法融合了來自不同傳感器（如視覺傳感器、激光雷達(dá)、毫米波雷達(dá)等）的信息，以構(gòu)建BEV特征。這種融合可以取長補(bǔ)短，充分利用各種傳感器的優(yōu)點(diǎn)，彌補(bǔ)各自的不足。

官术网_书友最值得收藏!

自動(dòng)駕駛BEV感知算法指南

1.3.4 基于Transformer的方法