Modelos alternativos para classificação em dados desbalanceados (2023)
- Authors:
- Autor USP: HUAYANAY, ALEX DE LA CRUZ - Interinstitucional de Pós-Graduação em Estatística
- Unidade: Interinstitucional de Pós-Graduação em Estatística
- Sigla do Departamento: SME
- DOI: 10.11606/T.104.2023.tde-20092024-092010
- Subjects: REGRESSÃO LOGÍSTICA; MÉTODOS MCMC; DISTRIBUIÇÕES (PROBABILIDADE); INFERÊNCIA BAYESIANA
- Keywords: Asymmetric link; Cloglog; Cloglog; Dados desbalanceados; Distribuição potência; Imbalanced data; Ligação assimétrica; Métricas para classificação binária; Metrics for binary classification; Mixed-effects model; Modelo de efeitos mistos; Power distribution
- Agências de fomento:
- Language: Português
- Abstract: Na classificação binária o método mais usado é o modelo de regressão logística. No entanto, vários autores indicam que esse modelo não é adequado quando os dados são desbalanceados. Diante disso, diferentes funções de ligação assimétrica, como alternativas para modelos de resposta binária, foram propostas; por exemplo, nos últimos anos foram estudadas as distribuições potência (P) e reversa de potência (RP). Neste trabalho desenvolvemos novas propriedades das distribuições P e RP no contexto de modelos para classificação em dados desbalanceados. Também, algumas métricas para classificação são estudadas através de um estudo de simulação, e uma aplicação da metologia estudada é apresentada. Além do mais, estudamos a extensão dos modelos de regressão binária para o caso misto em classificação binária no contexto de estudos longitudinais. Para avaliar o performance deste tipo de modelos apresentamos um estudo de simulação. Adicionalmente, mostramos uma aplicação da metodologia estudada para um conjunto de dados em que a variável resposta é longitudinal e desbalanceada. Para o processo de estimação dos parâmetros consideramos uma abordagem bayesiana usando um procedimento MCMC através do algoritmo No-U-Turn Sampler (NUTS). Verificações preditivas a posteriori, resíduos quantílicos aleatorizados Bayesianos e uma medida de influência bayesiana são considerados para o diagnóstico do modelo longitudinal. Diferentes modelos são comparados usando critérios de comparação de modelos.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 11.08.2023
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
HUAYANAY, Alex de la Cruz. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/. Acesso em: 24 fev. 2026. -
APA
Huayanay, A. de la C. (2023). Modelos alternativos para classificação em dados desbalanceados (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ -
NLM
Huayanay A de la C. Modelos alternativos para classificação em dados desbalanceados [Internet]. 2023 ;[citado 2026 fev. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ -
Vancouver
Huayanay A de la C. Modelos alternativos para classificação em dados desbalanceados [Internet]. 2023 ;[citado 2026 fev. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-20092024-092010/ - Modelos de regressão para resposta binária na presença de dados desbalanceados
- Asymmetric links and methods for imbalanced data in binary regression
- Resposta binária longitudinal usando ligações alternativas para dados médicos
- Longitudinal binary response models using alternative links for medical data
Informações sobre o DOI: 10.11606/T.104.2023.tde-20092024-092010 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
