Exportar registro bibliográfico

Algoritmo para indução de árvores de classificação para dados desbalanceados (2013)

  • Authors:
  • Autor USP: FRIZZARINI, CLÁUDIO - EACH
  • Unidade: EACH
  • Subjects: ALGORITMOS E ESTRUTURAS DE DADOS; MINERAÇÃO DE DADOS; APRENDIZADO COMPUTACIONAL; ALGORITMOS PARA PROCESSAMENTO
  • Keywords: Aprendizado supervisionado; Árvore de classificação; Árvore de decisão; Classification tree; Dados desbalanceados; Data mining; Decision Tree; Mineração de dados; Supervised learning; Unbalanced data
  • Language: Português
  • Abstract: As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de Business Intelligence fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). (continua)(continuação) Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros ad-hoc ou, na produzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes
  • Imprenta:
  • Data da defesa: 21.11.2013
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      FRIZZARINI, Cláudio; LAURETTO, Marcelo de Souza. Algoritmo para indução de árvores de classificação para dados desbalanceados. 2013.Universidade de São Paulo, São Paulo, 2013. Disponível em: < http://www.teses.usp.br/teses/disponiveis/100/100131/tde-19022014-101043/ >.
    • APA

      Frizzarini, C., & Lauretto, M. de S. (2013). Algoritmo para indução de árvores de classificação para dados desbalanceados. Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/100/100131/tde-19022014-101043/
    • NLM

      Frizzarini C, Lauretto M de S. Algoritmo para indução de árvores de classificação para dados desbalanceados [Internet]. 2013 ;Available from: http://www.teses.usp.br/teses/disponiveis/100/100131/tde-19022014-101043/
    • Vancouver

      Frizzarini C, Lauretto M de S. Algoritmo para indução de árvores de classificação para dados desbalanceados [Internet]. 2013 ;Available from: http://www.teses.usp.br/teses/disponiveis/100/100131/tde-19022014-101043/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021