Exportar registro bibliográfico


Metrics:

Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (2021)

  • Authors:
  • Autor USP: SHIMIZU, GILSON YUUJI - Interinstitucional de Pós-Graduação em Estatística
  • Unidade: Interinstitucional de Pós-Graduação em Estatística
  • Sigla do Departamento: SME
  • DOI: 10.11606/T.104.2021.tde-08112021-111235
  • Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE TEXTO; ANÁLISE DE REGRESSÃO E DE CORRELAÇÃO; INFERÊNCIA ESTATÍSTICA
  • Keywords: Alocação latente de Dirichlet (LDA); Bandas de predição; Conformal prediction; Latent Dirichlet allocation (LDA); Machine learning; Predição conformal; Prediction bands; Text analysis
  • Agências de fomento:
  • Language: Português
  • Abstract: Métodos de machine learning são basicamente divididos em dois grandes grupos: métodos supervisionados e não supervisionados. Na primeira parte deste trabalho nós desenvolvemos um método para criação de bandas de predição que pode ser aplicado em problemas supervisionados. Nossa abordagem é baseada em métodos conformal, que são interessantes porque criam bandas de predição que controlam a cobertura média assumindo somente dados i.i.d.. Geralmente também é desejável controlar a cobertura condicional, ou seja, a cobertura para toda nova amostra de teste. Contudo, sem fortes suposições, a cobertura condicional é inatingível. Dada esta limitação, a literatura tem focado em métodos com cobertura condicional assintótica. A fim de se obter esta propriedade, estes métodos requerem fortes suposições sobre a dependência entre a variável resposta e as características. Nós introduzimos dois métodos conformal baseados em estimadores de densidade condicionais que não dependem deste tipo de suposição para obter cobertura condicional assintótica: Dist-split e CD-split. Enquanto Dist-split obtém intervalos ótimos assintoticamente, que são mais fáceis de interpretar do que regiões de confiança, CD-split obtém regiões de tamanho ótimo, que são menores do que intervalos. CD-split também obtém cobertura local pela criação de bandas de predição localmente numa partição do espaço de características. Esta partição é baseada em dados e permite trabalhar com dados em alta dimensão. Numa grandevariedade de cenários simulados, nossos métodos tem melhor controle da cobertura condicional e tem menores comprimentos do que métodos propostos anteriores. Na segunda parte, num contexto de métodos não supervisionados, estudamos uma nova versão do modelo de Alocação Latente Dirichlet (LDA). O modelo LDA é um método popular para criação de mixed-membership clusters. Apesar de ter ficado conhecido na análise de texto, LDA tem sido usado em uma variedade de outras aplicações. Nós propomos uma nova formulação para o modelo LDA que incorpora covariáveis. Neste modelo, uma regressão binomial negativa é embutida dentro do LDA, possibilitando uma interpretação direta dos coeficientes de regressão e análise da quantidade de elementos específicos dos clusters em cada unidade amostral (ao invés da análise ser focada em modelar a proporção de cada cluster, como nos Modelos de Tópicos Estruturados). Nó usamos slice sampling dentro de um algoritmo de Gibbs sampling para estimar os parâmetros. E usamos simulações para mostrar como nosso algoritmo é capaz de estimar com sucesso os verdadeiros parâmetros do modelo. O modelo é ilustrado usando conjuntos de dados reais de três diferentes áreas: mineração de texto de artigos sobre coronavírus, análise de cestas de supermercados, e análise de espécies de árvores na Ilha de Barro Colorado (Panama). Este modelo permite a identificação de mixed-membership clusters em dados discretos e fornece inferências sobre o relacionamento entre covariáveis e a abundância destes clusters.
  • Imprenta:
  • Data da defesa: 15.10.2021
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.104.2021.tde-08112021-111235 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SHIMIZU, Gilson Yuuji. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/. Acesso em: 31 dez. 2025.
    • APA

      Shimizu, G. Y. (2021). Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/
    • NLM

      Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2025 dez. 31 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/
    • Vancouver

      Shimizu GY. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis [Internet]. 2021 ;[citado 2025 dez. 31 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-08112021-111235/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025