Exportar registro bibliográfico


Metrics:

A quantitative analysis of representation strategies in vision language models (2026)

  • Authors:
  • Autor USP: CARIOLA, PIETRO GUARINELLO - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2026.tde-06042026-160134
  • Subjects: INTELIGÊNCIA ARTIFICIAL; VISÃO COMPUTACIONAL; APRENDIZADO COMPUTACIONAL; APRENDIZAGEM PROFUNDA
  • Keywords: Computer vision; Explainability; Interpretabilidade; Modelos de linguagem multimodal; Vision language models; Modelos de linguagem
  • Agências de fomento:
  • Language: Inglês
  • Abstract: Este estudo investiga o comportamento dos módulos de projeção em modelos multimodais de visão e linguagem por meio de uma análise quantitativa das representações pré e pós-projeção em cenários sem treinamento específico. Com foco em dois modelos proeminentes, LLaVA e InstructBLIP, e avaliando-os em dois conjuntos de dados de domínio específicos, nas áreas de agricultura e dermatologia, a pesquisa explora como as representações visuais são transformadas pelo projetor antes de serem processadas pelo modelo de linguagem. Para avaliar a riqueza dessas representações, classificadores auxiliares de dois tipos, um perceptron multicamada (MLP) e um modelo baseado em transformer, são treinados para realizar tarefas de classificação diretamente sobre as representações antes e depois da projeção. Todos os experimentos são conduzidos em um cenário sem treinamento específico, garantindo que os modelos nunca tenham sido treinados com os conjuntos de dados utilizados nos testes. Os resultados revelam que o projetor não necessariamente degrada o conteúdo semântico das representações, mas pode reorganizar sua estrutura de maneira a se alinhar mais efetivamente com uma determinada arquitetura. Além disso, os experimentos mostram que o tipo de classificador auxiliar desempenha um papel significativo na forma como os efeitos da projeção são percebidos, sugerindo que fatores arquiteturais devem ser considerados no momento de projetar e avaliar sistemas multimodais. Este trabalho contribui para ocampo crescente da interpretabilidade em aprendizado profundo, oferecendo evidências empíricas sobre o papel do módulo projetor além de mais familiaridade com as representações internas dos modelos
  • Imprenta:
  • Data da defesa: 16.03.2026
  • Acesso à fonteAcesso à fonteDOI

    Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

    Status:
    Nenhuma versão em acesso aberto identificada

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      CARIOLA, Pietro Guarinello. A quantitative analysis of representation strategies in vision language models. 2026. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2026. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/. Acesso em: 13 abr. 2026.
    • APA

      Cariola, P. G. (2026). A quantitative analysis of representation strategies in vision language models (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/
    • NLM

      Cariola PG. A quantitative analysis of representation strategies in vision language models [Internet]. 2026 ;[citado 2026 abr. 13 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/
    • Vancouver

      Cariola PG. A quantitative analysis of representation strategies in vision language models [Internet]. 2026 ;[citado 2026 abr. 13 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026