Imbalanced classification tasks: measuring data complexity and recommending techniques (2021)
- Authors:
- Autor USP: BARELLA, VICTOR HUGO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE DADOS; COLETA DE DADOS; MINERAÇÃO DE DADOS
- Keywords: Dados desbalanceados; Data complexity; Imbalanced datasets; Machine learning; Meta- aprendizado; Meta- learning; Meta-atributos; Meta-features
- Agências de fomento:
- Language: Inglês
- Abstract: Algoritmos de classificação em aprendizado de máquina tendem a desempenhar pior em dados com classes desbalanceadas. Desbalanceamento de classes não é um problema sozinho, mas provoca efeitos adversos quando combinado com outras características de dados, como sobreposição de classes e ruído. Este estudo tem por objetivo medir características de dados desbalanceados e recomendar técnicas para lidar com desbalanceamento por meio de um sistema de meta-aprendizado. Nesta pesquisa, medidas populares de complexidade de dados foram decompostas por classe para melhor aferir as características de dados desbalanceados. Elas foram aplicadas em conjuntos de dados artificiais controlados e conjuntos reais. Essas medidas foram correlacionadas com o desempenho preditivo de diversos modelos de classificação. Elas também foram avaliadas antes e após a aplicação de famosas técnicas de pré-processamento pra dados desbalanceados. Além disso, um sistem de meta-prendizado foi implementado usando meta-atributos populares na literatura juntamente com as medidas de complexidade de dados desenvolvidas nessa pesquisa. Os resultados mostraram que decompor as medidas de complexidade por classe melhorou sua habilidade em medir complexidade em dados desbalanceados. Ademais, de acordo com os resultados dos experimentos, elas foram os meta-atributos mais relevantes para o sistema de meta-aprendizado. Baseado nos resultados desta pesquisa, praticantes de ciência de dados devem considerar medir a complexidadede conjuntos de dados desbalanceados, seja para interpretar características de dados, selecionar técnicas ou desenvolver novas técnicas.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 22.02.2021
-
ABNT
BARELLA, Victor Hugo. Imbalanced classification tasks: measuring data complexity and recommending techniques. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-26042021-140437/. Acesso em: 24 abr. 2024. -
APA
Barella, V. H. (2021). Imbalanced classification tasks: measuring data complexity and recommending techniques (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-26042021-140437/ -
NLM
Barella VH. Imbalanced classification tasks: measuring data complexity and recommending techniques [Internet]. 2021 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-26042021-140437/ -
Vancouver
Barella VH. Imbalanced classification tasks: measuring data complexity and recommending techniques [Internet]. 2021 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-26042021-140437/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas