Seleção de atributos importantes para a extração de conhecimento de bases de dados

Lee, Huei Diana; Monard, Maria Carolina

Tese

Seleção de atributos importantes para a extração de conhecimento de bases de dados (2005)

Authors:
- Lee, Huei Diana
- Monard, Maria Carolina (Orientador)
Autor USP: LEE, HUEI DIANA - ICMC
Unidade: ICMC
Sigla do Departamento: SCE
Subjects: APRENDIZADO COMPUTACIONAL; SISTEMAS HÍBRIDOS; MINERAÇÃO DE DADOS; SISTEMAS BASEADOS EM CONHECIMENTO
Language: Português
Abstract: O desenvolvimento da tecnologia e a propagação de sistemas computacionais nos mais variados domínios do conhecimento têm contribuído para a geração e o armazenamento de uma quantidade constantemente crescente de dados, em uma velocidade maior da que somos capazes de processar. De um modo geral, a principal razão para o armazenamento dessa enorme quantidade de dados é a utilização deles em benefício da humanidade. Diversas áreas têm se dedicado à pesquisa e a proposta de métodos e processos para tratar esses dados. Um desses processos é a Descoberta de Conhecimento em Bases de Dados, a qual tem como objetivo extrair conhecimento a partir das informações contidas nesses dados. Para alcançar esse objetivo, usualmente são construídos modelos (hipóteses), os quais podem ser gerados com o apoio de diferentes áreas tal como a de Aprendizado de Máquina. A Seleção de Atributos desempenha uma tarefa essencial dentro desse processo, pois representa um problema de fundamental importância em aprendizado de máquina, sendo freqüentemente realizada como uma etapa de pré-processamento. Seu objetivo é selecionar os atributos mais importantes, pois atributos não relevantes e/ou redundantes podem reduzir a precisão e a compreensibilidade das hipóteses induzidas por algoritmos de aprendizado supervisionado. Vários algoritmos para a seleção de atributos relevantes têm sido propostos na literatura. Entretanto, trabalhos recentes têm mostrado que também deve-se levar em conta a redundânciapara selecionar os atributos importantes, pois os atributos redundantes também afetam a qualidade das hipóteses induzidas. Para selecionar alguns e descartar outros, é preciso determinar a importância dos atributos segundo algum critério. Entre os vários critérios de importância de atributos propostos, alguns estão baseados em medidas de distância, consistência ou informação, enquanto outros são fundamentados em medidas de dependência. ) Outra questão essencial são as avaliações experimentais, as quais representam um importante instrumento de estimativa de performance de algoritmos de seleção de atributos, visto que não existe análise matemática que permita predizer que algoritmo de seleção de atributos será melhor que outro. Essas comparações entre performance de algoritmos são geralmente realizadas por meio da análise do erro do modelo construído a partir dos subconjuntos de atributos selecionados por esses algoritmos. Contudo, somente a consideração desse parâmetro não é suficiente; outras questões devem ser consideradas, tal como a percentagem de redução da quantidade de atributos desses subconjuntos de atributos selecionados. Neste trabalho é proposto um algoritmo que separa as análises de relevância e de redundância de atributos e introduz a utilização da Dimensão Fractal para tratar atributos redundantes em aprendizado supervisionado. É também proposto um modelo de avaliação de performance de algoritmos de seleção de atributosbaseado no erro da hipótese construída e na percentagem de redução da quantidade de atributos selecionados. Resultados experimentais utilizando vários conjuntos de dados e diversos algoritmos consolidados na literatura, que selecionam atributos importantes, mostram que nossa proposta é competitiva com esses algoritmos. Outra questão importante relacionada à extração de conhecimento a partir de bases de dados é o formato no qual os dados estão representados. Usualmente, é necessário que os exemplos estejam descritos no formato atributo-valor. Neste trabalho também propomos uma metodologia para dar suporte, por meio de um processo semi-automático, à construção de conjuntos de dados nesse formato, originados de informações de pacientes contidas em laudos médicos que estão descritos em linguagem natural. Esse processo foi aplicado com sucesso a um caso real
Imprenta:
- Publisher place: São Carlos
- Date published: 2005
Data da defesa: 16.12.2005

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LEE, Huei Diana. Seleção de atributos importantes para a extração de conhecimento de bases de dados. 2005. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2005. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22022006-172219/. Acesso em: 17 abr. 2024.
APA

Lee, H. D. (2005). Seleção de atributos importantes para a extração de conhecimento de bases de dados (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22022006-172219/
NLM

Lee HD. Seleção de atributos importantes para a extração de conhecimento de bases de dados [Internet]. 2005 ;[citado 2024 abr. 17 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22022006-172219/
Vancouver

Lee HD. Seleção de atributos importantes para a extração de conhecimento de bases de dados [Internet]. 2005 ;[citado 2024 abr. 17 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22022006-172219/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Seleção e construção de features relevantes para o aprendizado de máquina

ReP

Exportar registro bibliográfico

Seleção de atributos importantes para a extração de conhecimento de bases de dados (2005)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Seleção de atributos importantes para a extração de conhecimento de bases de dados (2005)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: