Key points are not available for this paper at this time.
Percepção multimodal multitarefa precisa e robusta é crucial para sistemas modernos de direção autônoma. No entanto, a pesquisa atual em percepção multimodal segue paradigmas independentes projetados para tarefas específicas de percepção, levando à falta de aprendizado complementar entre as tarefas e à diminuição do desempenho em aprendizado multitarefa (MTL) devido ao treinamento conjunto. Neste artigo, propomos MaskBEV, um paradigma MTL baseado em atenção mascarada que unifica a detecção de objetos 3D e a segmentação de mapas em perspectiva bird's eye view (BEV). MaskBEV introduz um decodificador Transformer agnóstico à tarefa para processar essas tarefas diversas, permitindo que o MTL seja realizado em um decodificador unificado sem exigir o design adicional de cabeças específicas para cada tarefa. Para explorar plenamente a informação complementar entre a segmentação de mapa BEV e as tarefas de detecção 3D no espaço BEV, propomos estratégias de modulação espacial e agregação de contexto em nível de cena. Essas estratégias consideram as dependências inerentes entre a segmentação BEV e a detecção 3D, impulsionando naturalmente o desempenho do MTL. Experimentos extensivos no conjunto de dados nuScenes mostram que, em comparação com métodos MTL anteriores de última geração, o MaskBEV alcança uma melhoria de 1,3 NDS na detecção de objetos 3D e 2,7 mIoU na segmentação de mapas BEV, demonstrando também uma velocidade de inferência ligeiramente superior.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Sat,) estudaram essa questão.
www.synapsesocial.com/papers/68e5be7bb6db64358755653a — DOI: https://doi.org/10.48550/arxiv.2408.09122
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Xiao Zhao
Xukun Zhang
Dingkang Yang
Building similarity graph...
Analyzing shared references across papers
Loading...