Pré-processamento de dados em aprendizado de máquina supervisionado

Batista, Gustavo Enrique de Almeida Prado Alves; Monard, Maria Carolina

Tese

Pré-processamento de dados em aprendizado de máquina supervisionado (2003)

Authors:
- Batista, Gustavo Enrique de Almeida Prado Alves
- Monard, Maria Carolina (Orientador)
Autor USP: BATISTA, GUSTAVO ENRIQUE DE ALMEIDA PRADO ALVE - ICMC
Unidade: ICMC
Sigla do Departamento: SCE
Subjects: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; BANCO DE DADOS
Language: Português
Abstract: A qualidade de dados é uma das principais preocupações em Aprendizado de Máquinas - AM - cujos algorítmos são freqüentemente utilizados para extrair conhecimento durante fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algorítmos de aprendizado induzem conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algorítmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande intreresse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Nestetrabalho é proposta a utilização do algorítmo K-VIZINHOS MAIS PRÓXIMOS como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algorítmo K-VIZINHOS MAIS PRÓXIMOS pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a IMPUTAÇÃO PELA MÉDIA OU MODA, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com com classes desbalanceadas é de crucial importância, um vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz depredizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional DISCOVER LEARNING ENVIRONMENT - DLE - o qual é um framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto DISCOVER, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD
Imprenta:
- Publisher place: São Carlos
- Date published: 2003
Data da defesa: 16.05.2003

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

BATISTA, Gustavo Enrique de Almeida Prado Alves. Pré-processamento de dados em aprendizado de máquina supervisionado. 2003. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2003. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/. Acesso em: 21 jan. 2026.
APA

Batista, G. E. de A. P. A. (2003). Pré-processamento de dados em aprendizado de máquina supervisionado (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/
NLM

Batista GE de APA. Pré-processamento de dados em aprendizado de máquina supervisionado [Internet]. 2003 ;[citado 2026 jan. 21 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/
Vancouver

Batista GE de APA. Pré-processamento de dados em aprendizado de máquina supervisionado [Internet]. 2003 ;[citado 2026 jan. 21 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/

ReP

Exportar registro bibliográfico

Pré-processamento de dados em aprendizado de máquina supervisionado (2003)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Pré-processamento de dados em aprendizado de máquina supervisionado (2003)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: