Hybrid Machine Learning Algorithms in High-Dimensional Settings

Galvão, Luciano Ribeiro; Moral, Rafael de Andrade

Tese

Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)

Authors:
- Galvão, Luciano Ribeiro
- Moral, Rafael de Andrade (Orientador)
Autor USP: GALVÃO, LUCIANO RIBEIRO - ESALQ
Unidade: ESALQ
Sigla do Departamento: LCE
DOI: 10.11606/T.11.2025.tde-06012026-111153
Subjects: ALGORITMOS; APRENDIZADO COMPUTACIONAL; FRAMEWORKS; MODELOS MATEMÁTICOS; SEGUROS; SIMULAÇÃO; TURISMO
Language: Inglês
Abstract: Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que osmodelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidade
Imprenta:
- Publisher place: Piracicaba
- Date published: 2025
Data da defesa: 27.11.2025

Informações sobre o DOI: 10.11606/T.11.2025.tde-06012026-111153 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo NÃO é de acesso aberto

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

GALVÃO, Luciano Ribeiro. Hybrid Machine Learning Algorithms in High-Dimensional Settings. 2025. Tese (Doutorado) – Universidade de São Paulo, Piracicaba, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/. Acesso em: 20 jan. 2026.
APA

Galvão, L. R. (2025). Hybrid Machine Learning Algorithms in High-Dimensional Settings (Tese (Doutorado). Universidade de São Paulo, Piracicaba. Recuperado de https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
NLM

Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
Vancouver

Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/

ReP

Exportar registro bibliográfico

Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: