Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)
- Authors:
- Autor USP: GALVÃO, LUCIANO RIBEIRO - ESALQ
- Unidade: ESALQ
- Sigla do Departamento: LCE
- DOI: 10.11606/T.11.2025.tde-06012026-111153
- Subjects: ALGORITMOS; APRENDIZADO COMPUTACIONAL; FRAMEWORKS; MODELOS MATEMÁTICOS; SEGUROS; SIMULAÇÃO; TURISMO
- Language: Inglês
- Abstract: Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que osmodelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidade
- Imprenta:
- Publisher place: Piracicaba
- Date published: 2025
- Data da defesa: 27.11.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
GALVÃO, Luciano Ribeiro. Hybrid Machine Learning Algorithms in High-Dimensional Settings. 2025. Tese (Doutorado) – Universidade de São Paulo, Piracicaba, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/. Acesso em: 20 jan. 2026. -
APA
Galvão, L. R. (2025). Hybrid Machine Learning Algorithms in High-Dimensional Settings (Tese (Doutorado). Universidade de São Paulo, Piracicaba. Recuperado de https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ -
NLM
Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ -
Vancouver
Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
Informações sobre o DOI: 10.11606/T.11.2025.tde-06012026-111153 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
