Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (2021)
- Authors:
- Autor USP: SHIMIZU, GILSON YUUJI - Interinstitucional de Pós-Graduação em Estatística
- Unidade: Interinstitucional de Pós-Graduação em Estatística
- Sigla do Departamento: SME
- DOI: 10.11606/T.104.2021.tde-08112021-111235
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE TEXTO; ANÁLISE DE REGRESSÃO E DE CORRELAÇÃO; INFERÊNCIA ESTATÍSTICA
- Keywords: Alocação latente de Dirichlet (LDA); Bandas de predição; Conformal prediction; Latent Dirichlet allocation (LDA); Machine learning; Predição conformal; Prediction bands; Text analysis
- Agências de fomento:
- Language: Português
- Abstract: Métodos de machine learning são basicamente divididos em dois grandes grupos: métodos supervisionados e não supervisionados. Na primeira parte deste trabalho nós desenvolvemos um método para criação de bandas de predição que pode ser aplicado em problemas supervisionados. Nossa abordagem é baseada em métodos conformal, que são interessantes porque criam bandas de predição que controlam a cobertura média assumindo somente dados i.i.d.. Geralmente também é desejável controlar a cobertura condicional, ou seja, a cobertura para toda nova amostra de teste. Contudo, sem fortes suposições, a cobertura condicional é inatingível. Dada esta limitação, a literatura tem focado em métodos com cobertura condicional assintótica. A fim de se obter esta propriedade, estes métodos requerem fortes suposições sobre a dependência entre a variável resposta e as características. Nós introduzimos dois métodos conformal baseados em estimadores de densidade condicionais que não dependem deste tipo de suposição para obter cobertura condicional assintótica: Dist-split e CD-split. Enquanto Dist-split obtém intervalos ótimos assintoticamente, que são mais fáceis de interpretar do que regiões de confiança, CD-split obtém regiões de tamanho ótimo, que são menores do que intervalos. CD-split também obtém cobertura local pela criação de bandas de predição localmente numa partição do espaço de características. Esta partição é baseada em dados e permite trabalhar com dados em alta dimensão. Numa grandevariedade de cenários simulados, nossos métodos tem melhor controle da cobertura condicional e tem menores comprimentos do que métodos propostos anteriores. Na segunda parte, num contexto de métodos não supervisionados, estudamos uma nova versão do modelo de Alocação Latente Dirichlet (LDA). O modelo LDA é um método popular para criação de mixed-membership clusters. Apesar de ter ficado conhecido na análise de texto, LDA tem sido usado em uma variedade de outras aplicações. Nós propomos uma nova formulação para o modelo LDA que incorpora covariáveis. Neste modelo, uma regressão binomial negativa é embutida dentro do LDA, possibilitando uma interpretação direta dos coeficientes de regressão e análise da quantidade de elementos específicos dos clusters em cada unidade amostral (ao invés da análise ser focada em modelar a proporção de cada cluster, como nos Modelos de Tópicos Estruturados). Nó usamos slice sampling dentro de um algoritmo de Gibbs sampling para estimar os parâmetros. E usamos simulações para mostrar como nosso algoritmo é capaz de estimar com sucesso os verdadeiros parâmetros do modelo. O modelo é ilustrado usando conjuntos de dados reais de três diferentes áreas: mineração de texto de artigos sobre coronavírus, análise de cestas de supermercados, e análise de espécies de árvores na Ilha de Barro Colorado (Panama). Este modelo permite a identificação de mixed-membership clusters em dados discretos e fornece inferências sobre o relacionamento entre covariáveis e a abundância destes clusters.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 15.10.2021
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
SHIMIZU, Gilson Yuuji. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/. Acesso em: 31 dez. 2025. -
APA
Shimizu, G. Y. (2021). Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/ -
NLM
Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2025 dez. 31 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/ -
Vancouver
Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2025 dez. 31 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/
Informações sobre o DOI: 10.11606/T.104.2021.tde-08112021-111235 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas