Modelos alternativos para classificação em dados desbalanceados (2023)
- Authors:
- Autor USP: HUAYANAY, ALEX DE LA CRUZ - Interinstitucional de Pós-Graduação em Estatística
- Unidade: Interinstitucional de Pós-Graduação em Estatística
- Sigla do Departamento: SME
- DOI: 10.11606/T.104.2023.tde-20092024-092010
- Subjects: REGRESSÃO LOGÍSTICA; MÉTODOS MCMC; DISTRIBUIÇÕES (PROBABILIDADE); INFERÊNCIA BAYESIANA
- Keywords: Asymmetric link; Cloglog; Cloglog; Dados desbalanceados; Distribuição potência; Imbalanced data; Ligação assimétrica; Métricas para classificação binária; Metrics for binary classification; Mixed-effects model; Modelo de efeitos mistos; Power distribution
- Agências de fomento:
- Language: Português
- Abstract: Na classificação binária o método mais usado é o modelo de regressão logística. No entanto, vários autores indicam que esse modelo não é adequado quando os dados são desbalanceados. Diante disso, diferentes funções de ligação assimétrica, como alternativas para modelos de resposta binária, foram propostas; por exemplo, nos últimos anos foram estudadas as distribuições potência (P) e reversa de potência (RP). Neste trabalho desenvolvemos novas propriedades das distribuições P e RP no contexto de modelos para classificação em dados desbalanceados. Também, algumas métricas para classificação são estudadas através de um estudo de simulação, e uma aplicação da metologia estudada é apresentada. Além do mais, estudamos a extensão dos modelos de regressão binária para o caso misto em classificação binária no contexto de estudos longitudinais. Para avaliar o performance deste tipo de modelos apresentamos um estudo de simulação. Adicionalmente, mostramos uma aplicação da metodologia estudada para um conjunto de dados em que a variável resposta é longitudinal e desbalanceada. Para o processo de estimação dos parâmetros consideramos uma abordagem bayesiana usando um procedimento MCMC através do algoritmo No-U-Turn Sampler (NUTS). Verificações preditivas a posteriori, resíduos quantílicos aleatorizados Bayesianos e uma medida de influência bayesiana são considerados para o diagnóstico do modelo longitudinal. Diferentes modelos são comparados usando critérios de comparação de modelos.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 11.08.2023
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
HUAYANAY, Alex de la Cruz. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/. Acesso em: 06 maio 2026. -
APA
Huayanay, A. de la C. (2023). Modelos alternativos para classificação em dados desbalanceados (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ -
NLM
Huayanay A de la C. Modelos alternativos para classificação em dados desbalanceados [Internet]. 2023 ;[citado 2026 maio 06 ] Available from: https://teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ -
Vancouver
Huayanay A de la C. Modelos alternativos para classificação em dados desbalanceados [Internet]. 2023 ;[citado 2026 maio 06 ] Available from: https://teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ - Modelos de regressão para resposta binária na presença de dados desbalanceados
- Asymmetric links and methods for imbalanced data in binary regression
- Resposta binária longitudinal usando ligações alternativas para dados médicos
- Longitudinal binary response models using alternative links for medical data
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
