Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles

Honorato, Eduardo Sperle; Wolf, Denis Fernando

Tese

Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (2025)

Authors:
- Honorato, Eduardo Sperle
- Wolf, Denis Fernando (Orientador)
Autor USP: HONORATO, EDUARDO SPERLE - ICMC
Unidade: ICMC
Sigla do Departamento: SSC
DOI: 10.11606/D.55.2025.tde-22092025-151759
Subjects: VEÍCULOS AUTÔNOMOS; APRENDIZADO COMPUTACIONAL; VISÃO COMPUTACIONAL; PERCEPÇÃO VISUAL
Keywords: 3D object detection; Attention mechanism; Autonomous vehicles; Detecção de objetos 3D; Fusão multi-sensorial; Mecanismo de atenção; Multi-sensor fusion; Segmentação; Segmentation
Agências de fomento:
- Financiamento CAPES
Language: Inglês
Abstract: Veículos autônomos estão cada vez mais próximos de se tornarem parte do cotidiano urbano. No entanto, desafios significativos ainda precisam ser superados para garantir que esses veículos sejam seguros e eficientes. Um dos principais desafios está na percepção, especialmente na segmentação e detecção de objetos 3D, que utiliza múltiplos sensores para melhorar a precisão e operar em condições adversas. A fusão eficiente desses sensores é uma questão central, pois determina a qualidade da detecção e o custo computacional do sistema. Métodos modernos de fusão multissensorial fazem uso de técnicas de Aprendizado Profundo, e uma abordagem emergente nessa área é a utilização de mecanismos de atenção. Esses mecanismos permitem obter representações mais informativas dos mapas de características extraídos pelos sensores, destacando as informações mais relevantes e suprimindo aquelas menos significativas. Neste contexto, este trabalho investiga o uso de mecanismos de atenção para otimizar o modelo BEVFusion, que alcançou o estado da arte ao empregar uma fusão unificada Câmera-LiDAR na representação Birds Eye View (BEV). O principal diferencial do BEVFusion é sua eficiente transformação da visão de perspectiva das câmeras para a representação BEV. No entanto, sua abordagem de fusão se limita à simples concatenação das características extraídas dos sensores, o que pode não ser a solução mais eficiente. Outro aspecto crítico do modelo BEVFusion é seu alto custo computacional, poisdepende de redes neurais profundas que exigem hardware robusto, tornando sua aplicação em veículos autônomos mais desafiadora. Isso se deve ao fato de que o hardware embarcado desses veículos precisa ter baixo custo e alta eficiência energética. Diante desse cenário, este trabalho propõe o estudo e a implementação de mecanismos de atenção para aprimorar a fusão de sensores do BEVFusion nas tarefas de detecção de objetos 3D e segmentação, ao mesmo tempo em que busca tornar o modelo mais eficiente computacionalmente. Foram realizadas modificações para reduzir o consumo de VRAM e o tempo de processamento, garantindo um desempenho semelhante ao do modelo original, mas com menor demanda por recursos computacionais. Os resultados obtidos são promissores, demonstrando um aumento de 14.12% no IoU para a tarefa de segmentação e de 0.732% no mAP para a detecção de objetos 3D. Além disso, houve uma redução de 3,3 vezes no tempo de treinamento e uma diminuição de quase 50% no consumo de memória VRAM.
Imprenta:
- Publisher place: São Carlos
- Date published: 2025
Data da defesa: 18.02.2025

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

HONORATO, Eduardo Sperle. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/. Acesso em: 01 abr. 2026.
APA

Honorato, E. S. (2025). Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/
NLM

Honorato ES. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles [Internet]. 2025 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/
Vancouver

Honorato ES. Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles [Internet]. 2025 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-22092025-151759/

ReP

Exportar registro bibliográfico

Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Multi-sensor fusion with attention mechanisms for visual perception in autonomous vehicles (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: