Exportar registro bibliográfico


Metrics:

Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (2025)

  • Authors:
  • Autor USP: ALMEIDA, PEDRO HENRIQUE BARBOSA DE - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2025.tde-09022026-231446
  • Subjects: VISÃO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; APRENDIZADO COMPUTACIONAL
  • Keywords: Atenção com redução espacial; Segmentação; Segmentation; Spatial Reduction Attention; Transformers de visão; Vision Transformers
  • Language: Inglês
  • Abstract: Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais
  • Imprenta:
  • Data da defesa: 12.12.2025
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2025.tde-09022026-231446 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo NÃO é de acesso aberto

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      ALMEIDA, Pedro Henrique Barbosa de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/. Acesso em: 25 fev. 2026.
    • APA

      Almeida, P. H. B. de. (2025). Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
    • NLM

      Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
    • Vancouver

      Almeida PHB de. Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet [Internet]. 2025 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026