Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (2025)
- Authors:
- Autor USP: HONORATO, EDUARDO SPERLE - ICMC
- Unidade: ICMC
- Sigla do Departamento: SSC
- DOI: 10.11606/D.55.2025.tde-22092025-151759
- Subjects: VEÍCULOS AUTÔNOMOS; APRENDIZADO COMPUTACIONAL; VISÃO COMPUTACIONAL; PERCEPÇÃO VISUAL
- Keywords: 3D object detection; Attention mechanism; Autonomous vehicles; Detecção de objetos 3D; Fusão multi-sensorial; Mecanismo de atenção; Multi-sensor fusion; Segmentação; Segmentation
- Agências de fomento:
- Language: Inglês
- Abstract: Veículos autônomos estão cada vez mais próximos de se tornarem parte do cotidiano urbano. No entanto, desafios significativos ainda precisam ser superados para garantir que esses veículos sejam seguros e eficientes. Um dos principais desafios está na percepção, especialmente na segmentação e detecção de objetos 3D, que utiliza múltiplos sensores para melhorar a precisão e operar em condições adversas. A fusão eficiente desses sensores é uma questão central, pois determina a qualidade da detecção e o custo computacional do sistema. Métodos modernos de fusão multissensorial fazem uso de técnicas de Aprendizado Profundo, e uma abordagem emergente nessa área é a utilização de mecanismos de atenção. Esses mecanismos permitem obter representações mais informativas dos mapas de características extraídos pelos sensores, destacando as informações mais relevantes e suprimindo aquelas menos significativas. Neste contexto, este trabalho investiga o uso de mecanismos de atenção para otimizar o modelo BEVFusion, que alcançou o estado da arte ao empregar uma fusão unificada Câmera-LiDAR na representação Birds Eye View (BEV). O principal diferencial do BEVFusion é sua eficiente transformação da visão de perspectiva das câmeras para a representação BEV. No entanto, sua abordagem de fusão se limita à simples concatenação das características extraídas dos sensores, o que pode não ser a solução mais eficiente. Outro aspecto crítico do modelo BEVFusion é seu alto custo computacional, poisdepende de redes neurais profundas que exigem hardware robusto, tornando sua aplicação em veículos autônomos mais desafiadora. Isso se deve ao fato de que o hardware embarcado desses veículos precisa ter baixo custo e alta eficiência energética. Diante desse cenário, este trabalho propõe o estudo e a implementação de mecanismos de atenção para aprimorar a fusão de sensores do BEVFusion nas tarefas de detecção de objetos 3D e segmentação, ao mesmo tempo em que busca tornar o modelo mais eficiente computacionalmente. Foram realizadas modificações para reduzir o consumo de VRAM e o tempo de processamento, garantindo um desempenho semelhante ao do modelo original, mas com menor demanda por recursos computacionais. Os resultados obtidos são promissores, demonstrando um aumento de 14.12% no IoU para a tarefa de segmentação e de 0.732% no mAP para a detecção de objetos 3D. Além disso, houve uma redução de 3,3 vezes no tempo de treinamento e uma diminuição de quase 50% no consumo de memória VRAM.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
- Data da defesa: 18.02.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
HONORATO, Eduardo Sperle. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/. Acesso em: 31 mar. 2026. -
APA
Honorato, E. S. (2025). Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/ -
NLM
Honorato ES. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/ -
Vancouver
Honorato ES. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/ - Boosting OOD detection in biomedical data with siamese neural networks
- Enhancing 3D object detection in autonomous vehicles: multi-sensor fusion with attention mechanisms
- Application of wavelet analysis and paraconsistent feature extraction in the classification of voice pathologies
- Cost-efficient visual perception for autonomous vehicles: leveraging attention-based sensor fusion to maintain performance
- Improving U-Net with attention mechanism for medical image segmentation applications
- Out-of-distribution object detection in autonomous vehicles with Yolo model
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
