Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures (2023)
- Authors:
- Autor USP: RIBEIRO, LEO SAMPAIO FERRAZ - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2023.tde-02062023-161527
- Subjects: REDES NEURAIS; APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE SINAIS; PROCESSAMENTO DE IMAGENS; DESENHO; VISÃO COMPUTACIONAL; COMPUTAÇÃO GRÁFICA; RECONHECIMENTO DE IMAGEM
- Keywords: Aprendizado de representações; Aprendizado de representações entre Domínios; Busca de imagens baseada em desenhos; Cross-domain representation learning; Feature learning; Graph neural network; Redes neurais em grafos; Sketch-based image retrieval; Transformer; Transformer
- Agências de fomento:
- Language: Inglês
- Abstract: Dentro do campo de Visão Computacional, a tarefa de Busca Visual entre Domínios é uma das mais úteis e estudadas e ainda assim raramente experimentadas em nosso cotidiano. Nesta tese exploramos a Busca Visual entre Domínios, usando a tarefa de Busca de Imagens baseada em Desenhos (Sketch-based Image Retrieval, SBIR) como sua representante. Descrevemos quatro hipóteses distintas sobre como avançar esse campo de pesquisa e comprovamos a validade de cada uma através das contribuições explicitadas. Primeiro apresentamos uma nova arquitetura, chamada Sketchformer, para o aprendizado de representações de desenhos, que troca as redes convolucionais tradicionais pelo recente modelo Transformer. Então exploramos duas definições alternativas para a tarefa de SBIR, cada uma aproximando melhor a escala e generalização necessárias para implementação no mundo real. Para ambas tarefas introduzimos modelos do estado-da-arte: nosso Scene Designer combina tradicionais redes de múltiplos ramos com uma rede neural em grafo para aprender representações de cenas desenhadas com múltiplos objetos; nosso Sketch-an-Anchor mostra que é possível usar o conhecimento geral que existe em modelos pré-treinados para a tarefa de Zero-shot SBIR. Estas contribuições tem um impacto direto na literatura de tarefas baseadas em desenhos e um impacto em cascata para as áreas de Compreensão de Imagens e Representações Entre Domínios em geral.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 28.02.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
RIBEIRO, Leo Sampaio Ferraz. Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-161527/. Acesso em: 30 dez. 2025. -
APA
Ribeiro, L. S. F. (2023). Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-161527/ -
NLM
Ribeiro LSF. Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures [Internet]. 2023 ;[citado 2025 dez. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-161527/ -
Vancouver
Ribeiro LSF. Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures [Internet]. 2023 ;[citado 2025 dez. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-161527/ - Scene designer: compositional sketch-based image retrieval with contrastive learning and an auxiliary synthesis task
- Scene Designer: a unified model for scene search and synthesis from sketch
- Sketchformer: transformer-based representation for sketched structure
- Training deep networks from zero to hero: avoiding pitfalls and going beyond
Informações sobre o DOI: 10.11606/T.55.2023.tde-02062023-161527 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
