Exportar registro bibliográfico

Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos (2009)

  • Authors:
  • USP affiliated authors: NOGUEIRA, BRUNO MAGALHãES - ICMC
  • Unidades: ICMC
  • Sigla do Departamento: SCC
  • Subjects: APRENDIZADO COMPUTACIONAL; SISTEMAS BASEADOS EM CONHECIMENTO; SISTEMAS HÍBRIDOS
  • Language: Português
  • Abstract: Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual InformationMeasure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação ) supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor
  • Imprenta:
  • Data da defesa: 27.03.2009
  • Online source access
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      NOGUEIRA, Bruno Magalhães; REZENDE, Solange Oliveira. Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos. 2009.Universidade de São Paulo, São Carlos, 2009. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06052009-154832/ >.
    • APA

      Nogueira, B. M., & Rezende, S. O. (2009). Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06052009-154832/
    • NLM

      Nogueira BM, Rezende SO. Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos [Internet]. 2009 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06052009-154832/
    • Vancouver

      Nogueira BM, Rezende SO. Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos [Internet]. 2009 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06052009-154832/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2020