Medidas de avaliação de classificadores binários para classes desbalanceadas (2022)
- Authors:
- Autor USP: FERREIRA, GABRIEL GOMES - ICMC
- Unidade: ICMC
- Sigla do Departamento: SME
- DOI: 10.11606/D.55.2022.tde-13122022-173125
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE REGRESSÃO E DE CORRELAÇÃO; INFERÊNCIA BAYESIANA; REGRESSÃO LOGÍSTICA; DADOS CATEGORIZADOS; MEDIDAS ESTATÍSTICAS
- Keywords: Avaliação de modelos; Binary regression; Classificador; Classification; Desbalanceamento de classes; Machine learning; Model evaluation; Regressão binária; Unbalanced classes
- Language: Português
- Abstract: Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa seruma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 06.10.2022
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
FERREIRA, Gabriel Gomes. Medidas de avaliação de classificadores binários para classes desbalanceadas. 2022. Mestrado Profissionalizante – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/. Acesso em: 01 abr. 2026. -
APA
Ferreira, G. G. (2022). Medidas de avaliação de classificadores binários para classes desbalanceadas (Mestrado Profissionalizante). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ -
NLM
Ferreira GG. Medidas de avaliação de classificadores binários para classes desbalanceadas [Internet]. 2022 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ -
Vancouver
Ferreira GG. Medidas de avaliação de classificadores binários para classes desbalanceadas [Internet]. 2022 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
