Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (2025)
- Authors:
- Autor USP: ALMEIDA, PEDRO HENRIQUE BARBOSA DE - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-09022026-231446
- Subjects: VISÃO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; APRENDIZADO COMPUTACIONAL
- Keywords: Atenção com redução espacial; Segmentação; Segmentation; Spatial Reduction Attention; Transformers de visão; Vision Transformers
- Language: Inglês
- Abstract: Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais
- Imprenta:
- Data da defesa: 12.12.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
ALMEIDA, Pedro Henrique Barbosa de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/. Acesso em: 25 fev. 2026. -
APA
Almeida, P. H. B. de. (2025). Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/ -
NLM
Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/ -
Vancouver
Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
Informações sobre o DOI: 10.11606/D.45.2025.tde-09022026-231446 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
