August 17, 2024Open Access

MaskBEV: Rumo a uma Estrutura Unificada para Detecção BEV e Segmentação de Mapas

Key Points

Key points are not available for this paper at this time.

Abstract

Percepção multimodal multitarefa precisa e robusta é crucial para sistemas modernos de direção autônoma. No entanto, a pesquisa atual em percepção multimodal segue paradigmas independentes projetados para tarefas específicas de percepção, levando à falta de aprendizado complementar entre as tarefas e à diminuição do desempenho em aprendizado multitarefa (MTL) devido ao treinamento conjunto. Neste artigo, propomos MaskBEV, um paradigma MTL baseado em atenção mascarada que unifica a detecção de objetos 3D e a segmentação de mapas em perspectiva bird's eye view (BEV). MaskBEV introduz um decodificador Transformer agnóstico à tarefa para processar essas tarefas diversas, permitindo que o MTL seja realizado em um decodificador unificado sem exigir o design adicional de cabeças específicas para cada tarefa. Para explorar plenamente a informação complementar entre a segmentação de mapa BEV e as tarefas de detecção 3D no espaço BEV, propomos estratégias de modulação espacial e agregação de contexto em nível de cena. Essas estratégias consideram as dependências inerentes entre a segmentação BEV e a detecção 3D, impulsionando naturalmente o desempenho do MTL. Experimentos extensivos no conjunto de dados nuScenes mostram que, em comparação com métodos MTL anteriores de última geração, o MaskBEV alcança uma melhoria de 1,3 NDS na detecção de objetos 3D e 2,7 mIoU na segmentação de mapas BEV, demonstrando também uma velocidade de inferência ligeiramente superior.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Zhao et al. (Sat,) estudaram essa questão.

www.synapsesocial.com/papers/68e5be7bb6db64358755653a — DOI: https://doi.org/10.48550/arxiv.2408.09122

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

M-BEV: Masked BEV Perception for Robust Autonomous Driving· 2024 · 12 citations
MTC-BEV: Semantic-Guided Temporal and Cross-Modal BEV Feature Fusion for 3D Object Detection· 2025 · 1 citations
Improving Bird's Eye View Semantic Segmentation by Task Decomposition· 2024
OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection· 2024 · 16 citations
BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight

Authors

Xiao Zhao

Xukun Zhang

Dingkang Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaskBEV: Rumo a uma Estrutura Unificada para Detecção BEV e Segmentação de Mapas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion