A quantitative analysis of representation strategies in vision language models

Cariola, Pietro Guarinello; Hirata Júnior, Roberto

Tese

A quantitative analysis of representation strategies in vision language models (2026)

Authors:
- Cariola, Pietro Guarinello
- Hirata Júnior, Roberto (Orientador)
Autor USP: CARIOLA, PIETRO GUARINELLO - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2026.tde-06042026-160134
Subjects: INTELIGÊNCIA ARTIFICIAL; VISÃO COMPUTACIONAL; APRENDIZADO COMPUTACIONAL; APRENDIZAGEM PROFUNDA
Keywords: Computer vision; Explainability; Interpretabilidade; Modelos de linguagem multimodal; Vision language models; Modelos de linguagem
Agências de fomento:
Language: Inglês
Abstract: Este estudo investiga o comportamento dos módulos de projeção em modelos multimodais de visão e linguagem por meio de uma análise quantitativa das representações pré e pós-projeção em cenários sem treinamento específico. Com foco em dois modelos proeminentes, LLaVA e InstructBLIP, e avaliando-os em dois conjuntos de dados de domínio específicos, nas áreas de agricultura e dermatologia, a pesquisa explora como as representações visuais são transformadas pelo projetor antes de serem processadas pelo modelo de linguagem. Para avaliar a riqueza dessas representações, classificadores auxiliares de dois tipos, um perceptron multicamada (MLP) e um modelo baseado em transformer, são treinados para realizar tarefas de classificação diretamente sobre as representações antes e depois da projeção. Todos os experimentos são conduzidos em um cenário sem treinamento específico, garantindo que os modelos nunca tenham sido treinados com os conjuntos de dados utilizados nos testes. Os resultados revelam que o projetor não necessariamente degrada o conteúdo semântico das representações, mas pode reorganizar sua estrutura de maneira a se alinhar mais efetivamente com uma determinada arquitetura. Além disso, os experimentos mostram que o tipo de classificador auxiliar desempenha um papel significativo na forma como os efeitos da projeção são percebidos, sugerindo que fatores arquiteturais devem ser considerados no momento de projetar e avaliar sistemas multimodais. Este trabalho contribui para ocampo crescente da interpretabilidade em aprendizado profundo, oferecendo evidências empíricas sobre o papel do módulo projetor além de mais familiaridade com as representações internas dos modelos
Imprenta:
- Publisher place: São Paulo
- Date published: 2026
Data da defesa: 16.03.2026

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:: Nenhuma versão em acesso aberto identificada

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

CARIOLA, Pietro Guarinello. A quantitative analysis of representation strategies in vision language models. 2026. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2026. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/. Acesso em: 13 abr. 2026.
APA

Cariola, P. G. (2026). A quantitative analysis of representation strategies in vision language models (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/
NLM

Cariola PG. A quantitative analysis of representation strategies in vision language models [Internet]. 2026 ;[citado 2026 abr. 13 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/
Vancouver

Cariola PG. A quantitative analysis of representation strategies in vision language models [Internet]. 2026 ;[citado 2026 abr. 13 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-06042026-160134/

ReP

Exportar registro bibliográfico

A quantitative analysis of representation strategies in vision language models (2026)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

A quantitative analysis of representation strategies in vision language models (2026)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: