官术网_书友最值得收藏!

1.3.4 基于Transformer的方法

除了上述方法外,Transformer也是將透視視角圖像映射到鳥瞰視角圖像的出色解決方案。

基于Transformer的方法設(shè)計(jì)一組BEV查詢,結(jié)合其位置編碼,利用BEV查詢和圖像特征間的交叉注意力機(jī)制執(zhí)行視角轉(zhuǎn)換。特斯拉是第一個(gè)使用Transformer將透視視圖特征投影到BEV平面上的公司。

根據(jù)查詢的粒度,基于Transformer的方法可分為基于稀疏查詢、基于密集查詢和基于混合查詢?nèi)悺_@里主要介紹前兩類。基于稀疏查詢的方法可以產(chǎn)生稀疏感知結(jié)果,適用于以目標(biāo)為中心的感知任務(wù),但在密集感知任務(wù)中面臨挑戰(zhàn)。基于密集查詢的方法在三維空間或BEV空間中預(yù)先分配空間位置,通過BEV查詢和圖像特征間的交互實(shí)現(xiàn)密集BEV表示,支持多種下游任務(wù)。

基于稀疏查詢的方法雖在目標(biāo)檢測中表現(xiàn)出色,但其3D表示缺乏幾何結(jié)構(gòu)意義,不適用于密集預(yù)測任務(wù);而密集查詢能為BEV空間提供豐富的表示,但大量查詢導(dǎo)致計(jì)算負(fù)擔(dān)沉重,這就要求注意力機(jī)制更高效。

DETR3D是一種典型的基于Transformer的方法。它遵循稀疏查詢的框架,專注于多相機(jī)輸入的3D檢測,通過基于幾何的特征采樣過程取代交叉注意力,并使用校準(zhǔn)矩陣將參考點(diǎn)投影到圖像平面上,實(shí)現(xiàn)對應(yīng)的多視圖、多尺度圖像特征的采樣,以進(jìn)行端到端的3D邊界框預(yù)測。有關(guān)DETR3D的詳細(xì)介紹見6.2.2節(jié)。

在Transformer中,交叉注意力表現(xiàn)出與數(shù)據(jù)相關(guān)的特性,一方面,其加權(quán)矩陣會(huì)受到輸入數(shù)據(jù)的影響。這種對數(shù)據(jù)的依賴使得Transformer在表達(dá)上更加豐富,但同時(shí)也增加了訓(xùn)練的難度。另一方面,由于交叉注意力是排列不變的,Transformer需要借助位置編碼來區(qū)分輸入的序列順序。

基于Transformer的方法能夠利用注意力機(jī)制和位置編碼實(shí)現(xiàn)視角轉(zhuǎn)換,為感知提供有效的解決方案。為了進(jìn)一步提升算法性能,越來越多的方法開始嘗試將3D幾何約束引入基于Transformer的透視視角到鳥瞰視角轉(zhuǎn)換的框架中,以增強(qiáng)網(wǎng)絡(luò)對空間關(guān)系的感知能力,提高轉(zhuǎn)換效率和準(zhǔn)確性。

根據(jù)輸入模態(tài)劃分,BEV感知算法可以分為以下兩種類型。

基于圖像的BEV感知算法:這類算法主要依賴視覺傳感器,如攝像頭獲取的圖像數(shù)據(jù)。它們將多個(gè)視角的圖像序列轉(zhuǎn)換為BEV特征,用于后續(xù)感知任務(wù),如輸出物體的3D檢測框或鳥瞰視圖下的語義分割。這類算法充分利用了視覺感知的豐富語義信息,但可能受到深度測量準(zhǔn)確性的限制。

基于多模態(tài)的BEV感知算法:這類算法融合了來自不同傳感器(如視覺傳感器、激光雷達(dá)、毫米波雷達(dá)等)的信息,以構(gòu)建BEV特征。這種融合可以取長補(bǔ)短,充分利用各種傳感器的優(yōu)點(diǎn),彌補(bǔ)各自的不足。

主站蜘蛛池模板: 北票市| 都匀市| 甘孜县| 虎林市| 梨树县| 吴桥县| 盱眙县| 昌平区| 名山县| 德化县| 兖州市| 彭泽县| 上思县| 贺州市| 达拉特旗| 麻城市| 板桥市| 鄄城县| 武鸣县| 湟中县| 德惠市| 左权县| 墨脱县| 甘孜| 中阳县| 建德市| 抚松县| 天津市| 亚东县| 太原市| 响水县| 西吉县| 黑水县| 汉沽区| 灵山县| 西藏| 丽江市| 正定县| 浦北县| 都匀市| 南涧|