Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet

Almeida, Pedro Henrique Barbosa de; Hirata, Nina Sumiko Tomita

Tese

Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (2025)

Authors:
- Almeida, Pedro Henrique Barbosa de
- Hirata, Nina Sumiko Tomita (Orientador)
Autor USP: ALMEIDA, PEDRO HENRIQUE BARBOSA DE - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2025.tde-09022026-231446
Subjects: VISÃO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; APRENDIZADO COMPUTACIONAL
Keywords: Atenção com redução espacial; Segmentação; Segmentation; Spatial Reduction Attention; Transformers de visão; Vision Transformers
Language: Inglês
Abstract: Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais
Imprenta:
- Publisher place: São Paulo
- Date published: 2025
Data da defesa: 12.12.2025

Informações sobre o DOI: 10.11606/D.45.2025.tde-09022026-231446 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo NÃO é de acesso aberto

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

ALMEIDA, Pedro Henrique Barbosa de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/. Acesso em: 25 fev. 2026.
APA

Almeida, P. H. B. de. (2025). Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
NLM

Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
Vancouver

Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/

ReP

Exportar registro bibliográfico

Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: