Exportar registro bibliográfico

"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" (2003)

  • Authors:
  • Autor USP: MARTINS, CLAUDIA APARECIDA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCE
  • Subjects: MINERAÇÃO DE DADOS; ALGORITMOS PARA PROCESSAMENTO; INTELIGÊNCIA ARTIFICIAL
  • Language: Português
  • Abstract: A representação atributo-valor de documentos usada no processo de mineração de textos é uma estrutura adequada à maioria das tarefas de classificação e agrupamento de documentos. No contexto de algoritmos de aprendizado de máquina, a representação atributo-valor de documentos freqüentemente utiliza a abordagem bag-of-words. Essa abordagem é caracterizada pela alta dimensionalidade na representação dos dados, pois toda palavra presente no documento pode ser um possível atributo. Deve ser considerado, portanto, que uma boa representação de documentos tem uma influência fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou não supervisionado). Como uma das principais contribuições deste trabalho, é apresentada uma ferramenta para pré-processamento que eficientemente decompõe textos em palavras usando a abordagem bag-of-words, bem como o uso de métodos para reduzir a dimensionalidade da representação gerada. Essa ferramenta transforma os documentos em um formato acessível à maioria dos algoritmos de aprendizado, nos quais os dados são descritos como um vetor de dimensão fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representação de documentos com o objetivo de obter um melhor desempenho dos algoritmos de aprendizado de máquina utilizados. A escolha do algoritmo de aprendizado a ser utilizado, supervisionado e não supervisionado, é dependente do problema em questão. Algoritmosde aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado não supervisionado são freqüentemente aplicados a dados não rotulados. No caso do aprendizado não supervisionado, para avaliar se um dado cluster corresponde a um certo conceito, neste trabalho é utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpretação dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhecimento adquirido. Essa compreensão é necessária tanto para o usuário aceitar a solução gerada pelo sistema quanto para analisar o raciocínio utilizado.
  • Imprenta:
  • Data da defesa: 25.11.2003
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MARTINS, Claudia Aparecida. "Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado". 2003. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2003. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/. Acesso em: 19 set. 2024.
    • APA

      Martins, C. A. (2003). "Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/
    • NLM

      Martins CA. "Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" [Internet]. 2003 ;[citado 2024 set. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/
    • Vancouver

      Martins CA. "Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" [Internet]. 2003 ;[citado 2024 set. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024