- 自動駕駛BEV感知算法指南
- 易顯維 虞凡
- 369字
- 2025-02-10 16:18:52
1.3.3 基于多層感知器的方法
基于多層感知器(MultiLayer Perception,MLP)的方法利用多層感知器作為復雜的映射函數,將輸入映射到不同模態、維度或表示的輸出上,以實現從透視視角到BEV視角的轉換。
為了消除相機校準設置中的繼承感應偏差,一些方法采用MLP來學習相機校準的隱式表示。例如,視圖解析網絡(View Parsing Network,VPN)選擇了兩層MLP,利用全局感受野的需求,通過“關注-映射-重塑”的過程將每個PV特征圖轉換為BEV特征圖,然后添加來自不同相機的所有特征圖以進行多視圖融合。金字塔占用網絡(Pyramid Occupancy Networks,PON)則是基于網絡對于將特征映射到BEV的大量垂直上下文的需求,利用特征金字塔提取多個分辨率的圖像特征,使用MLP沿高度軸折疊圖像特征并沿深度軸擴展來執行視圖變換,如圖1-9所示。

圖1-9 PON按列將透視圖特征轉換為鳥瞰視圖特征
基于MLP的方法利用多層感知器作為映射函數,實現了視角間的轉換,為自動駕駛等應用提供了重要的感知能力。