Exportar registro bibliográfico


Metrics:

Modelos para análise de textos: um comparativo do número de tópicos (2024)

  • Authors:
  • Autor USP: COELHO FILHO, EDVALDO CAPOBIANGO - Interinstitucional de Pós-Graduação em Estatística
  • Unidade: Interinstitucional de Pós-Graduação em Estatística
  • Sigla do Departamento: SME
  • DOI: 10.11606/D.104.2024.tde-02122025-161716
  • Subjects: INFERÊNCIA BAYESIANA; ANÁLISE DE TEXTO; PROCESSAMENTO DE DADOS; ANÁLISE DE DADOS; PROBLEMA DE DIRICHLET; PROCESSAMENTO DE LINGUAGEM NATURAL
  • Keywords: Bayesian approach; Latente Dirichlet allocation; Métricas de desempenho; Mixture model; Modelagem de tópicos; Modelo de mistura; Performance metrics; Topic modeling
  • Language: Português
  • Abstract: A modelagem de textos tem ganhado bastante visibilidade e popularidade nos últimos anos devido a grande e, cada vez maior, quantidade de informações presentes no dia a dia, consumidas de diversas maneiras. Para a eficiência e aplicabilidade destes modelos, é de suma importância a etapa de pré-processamento dos dados, que ajuda na organização e tratamento dos textos. Um ramo dentro da análise de textos é o de modelagem de tópicos, cujas metodologias visam entender a estrutura de tópicos (assuntos) que formam um documento, segmentando vários documentos por seus tópicos dominantes e simplificando assim a exploração de grandes volumes de dados textuais com a redução de dimensionalidade ocasionada. Um dos métodos pioneiros neste contexto é o Modelo de Mistura (MM), este que parte-se do pressuposto de que cada documento será composto de palavras advindas de um único tópico. Diante dessa limitação, tem ganhado bastante visibilidade o modelo de Latent Dirichlet Allocation (LDA), por conta de sua maior flexibilidade, visto que permite que cada documento possa exibir vários tópicos. Em ambas as metodologias, a inferência é realizada, em geral, via abordagem Bayesiana. No entanto, uma das características do MM e LDA consiste na exigência de que o usuário defina de partida a quantidade de tópicos do modelo. Sendo assim, o uso de métricas de desempenho se faz necessário após a aplicação do método, visando a ajuda na definição e estimação do melhor número de tópicos a ser escolhido. Nessetrabalho, portanto, além de contrapor as metodologias de análises textuais, fazemos o comparativo entre as métricas que mensuram a qualidade dos modelos e são utilizadas para a escolha do número de tópicos. Para isso, aplicamos os modelos e as métricas de seleção em dois conjuntos de dados reais.
  • Imprenta:
  • Data da defesa: 27.08.2024
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.104.2024.tde-02122025-161716 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      COELHO FILHO, Edvaldo Capobiango. Modelos para análise de textos: um comparativo do número de tópicos. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-02122025-161716/. Acesso em: 04 dez. 2025.
    • APA

      Coelho Filho, E. C. (2024). Modelos para análise de textos: um comparativo do número de tópicos (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-02122025-161716/
    • NLM

      Coelho Filho EC. Modelos para análise de textos: um comparativo do número de tópicos [Internet]. 2024 ;[citado 2025 dez. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-02122025-161716/
    • Vancouver

      Coelho Filho EC. Modelos para análise de textos: um comparativo do número de tópicos [Internet]. 2024 ;[citado 2025 dez. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-02122025-161716/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025