Medidas de avaliação de classificadores binários para classes desbalanceadas (2022)
- Authors:
- Autor USP: FERREIRA, GABRIEL GOMES - ICMC
- Unidade: ICMC
- Sigla do Departamento: SME
- DOI: 10.11606/D.55.2022.tde-13122022-173125
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE REGRESSÃO E DE CORRELAÇÃO; INFERÊNCIA BAYESIANA; REGRESSÃO LOGÍSTICA; DADOS CATEGORIZADOS; MEDIDAS ESTATÍSTICAS
- Keywords: Avaliação de modelos; Binary regression; Classificador; Classification; Desbalanceamento de classes; Machine learning; Model evaluation; Regressão binária; Unbalanced classes
- Language: Português
- Abstract: Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa seruma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 06.10.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
FERREIRA, Gabriel Gomes. Medidas de avaliação de classificadores binários para classes desbalanceadas. 2022. Mestrado Profissionalizante – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/. Acesso em: 12 jan. 2026. -
APA
Ferreira, G. G. (2022). Medidas de avaliação de classificadores binários para classes desbalanceadas (Mestrado Profissionalizante). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ -
NLM
Ferreira GG. Medidas de avaliação de classificadores binários para classes desbalanceadas [Internet]. 2022 ;[citado 2026 jan. 12 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ -
Vancouver
Ferreira GG. Medidas de avaliação de classificadores binários para classes desbalanceadas [Internet]. 2022 ;[citado 2026 jan. 12 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/
Informações sobre o DOI: 10.11606/D.55.2022.tde-13122022-173125 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
