Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)
- Authors:
- Autor USP: GALVÃO, LUCIANO RIBEIRO - ESALQ
- Unidade: ESALQ
- Sigla do Departamento: LCE
- DOI: 10.11606/T.11.2025.tde-06012026-111153
- Subjects: ALGORITMOS; APRENDIZADO COMPUTACIONAL; FRAMEWORKS; MODELOS MATEMÁTICOS; SEGUROS; SIMULAÇÃO; TURISMO
- Language: Inglês
- Abstract: Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que osmodelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidade
- Imprenta:
- Publisher place: Piracicaba
- Date published: 2025
- Data da defesa: 27.11.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
GALVÃO, Luciano Ribeiro. Hybrid Machine Learning Algorithms in High-Dimensional Settings. 2025. Tese (Doutorado) – Universidade de São Paulo, Piracicaba, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/. Acesso em: 14 abr. 2026. -
APA
Galvão, L. R. (2025). Hybrid Machine Learning Algorithms in High-Dimensional Settings (Tese (Doutorado). Universidade de São Paulo, Piracicaba. Recuperado de https://teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ -
NLM
Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 abr. 14 ] Available from: https://teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ -
Vancouver
Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 abr. 14 ] Available from: https://teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
