Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (2021)
- Authors:
- Autor USP: SHIMIZU, GILSON YUUJI - Interinstitucional de Pós-Graduação em Estatística
- Unidade: Interinstitucional de Pós-Graduação em Estatística
- Sigla do Departamento: SME
- DOI: 10.11606/T.104.2021.tde-08112021-111235
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE TEXTO; ANÁLISE DE REGRESSÃO E DE CORRELAÇÃO; INFERÊNCIA ESTATÍSTICA
- Keywords: Alocação latente de Dirichlet (LDA); Bandas de predição; Conformal prediction; Latent Dirichlet allocation (LDA); Machine learning; Predição conformal; Prediction bands; Text analysis
- Agências de fomento:
- Language: Português
- Abstract: Métodos de machine learning são basicamente divididos em dois grandes grupos: métodos supervisionados e não supervisionados. Na primeira parte deste trabalho nós desenvolvemos um método para criação de bandas de predição que pode ser aplicado em problemas supervisionados. Nossa abordagem é baseada em métodos conformal, que são interessantes porque criam bandas de predição que controlam a cobertura média assumindo somente dados i.i.d.. Geralmente também é desejável controlar a cobertura condicional, ou seja, a cobertura para toda nova amostra de teste. Contudo, sem fortes suposições, a cobertura condicional é inatingível. Dada esta limitação, a literatura tem focado em métodos com cobertura condicional assintótica. A fim de se obter esta propriedade, estes métodos requerem fortes suposições sobre a dependência entre a variável resposta e as características. Nós introduzimos dois métodos conformal baseados em estimadores de densidade condicionais que não dependem deste tipo de suposição para obter cobertura condicional assintótica: Dist-split e CD-split. Enquanto Dist-split obtém intervalos ótimos assintoticamente, que são mais fáceis de interpretar do que regiões de confiança, CD-split obtém regiões de tamanho ótimo, que são menores do que intervalos. CD-split também obtém cobertura local pela criação de bandas de predição localmente numa partição do espaço de características. Esta partição é baseada em dados e permite trabalhar com dados em alta dimensão. Numa grandevariedade de cenários simulados, nossos métodos tem melhor controle da cobertura condicional e tem menores comprimentos do que métodos propostos anteriores. Na segunda parte, num contexto de métodos não supervisionados, estudamos uma nova versão do modelo de Alocação Latente Dirichlet (LDA). O modelo LDA é um método popular para criação de mixed-membership clusters. Apesar de ter ficado conhecido na análise de texto, LDA tem sido usado em uma variedade de outras aplicações. Nós propomos uma nova formulação para o modelo LDA que incorpora covariáveis. Neste modelo, uma regressão binomial negativa é embutida dentro do LDA, possibilitando uma interpretação direta dos coeficientes de regressão e análise da quantidade de elementos específicos dos clusters em cada unidade amostral (ao invés da análise ser focada em modelar a proporção de cada cluster, como nos Modelos de Tópicos Estruturados). Nó usamos slice sampling dentro de um algoritmo de Gibbs sampling para estimar os parâmetros. E usamos simulações para mostrar como nosso algoritmo é capaz de estimar com sucesso os verdadeiros parâmetros do modelo. O modelo é ilustrado usando conjuntos de dados reais de três diferentes áreas: mineração de texto de artigos sobre coronavírus, análise de cestas de supermercados, e análise de espécies de árvores na Ilha de Barro Colorado (Panama). Este modelo permite a identificação de mixed-membership clusters em dados discretos e fornece inferências sobre o relacionamento entre covariáveis e a abundância destes clusters.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 15.10.2021
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
SHIMIZU, Gilson Yuuji. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/. Acesso em: 07 maio 2026. -
APA
Shimizu, G. Y. (2021). Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/ -
NLM
Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2026 maio 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/ -
Vancouver
Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2026 maio 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas