Exportar registro bibliográfico


Metrics:

Hybrid Machine Learning Algorithms in High-Dimensional Settings (2025)

  • Authors:
  • Autor USP: GALVÃO, LUCIANO RIBEIRO - ESALQ
  • Unidade: ESALQ
  • Sigla do Departamento: LCE
  • DOI: 10.11606/T.11.2025.tde-06012026-111153
  • Subjects: ALGORITMOS; APRENDIZADO COMPUTACIONAL; FRAMEWORKS; MODELOS MATEMÁTICOS; SEGUROS; SIMULAÇÃO; TURISMO
  • Language: Inglês
  • Abstract: Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que osmodelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidade
  • Imprenta:
  • Data da defesa: 27.11.2025
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.11.2025.tde-06012026-111153 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo NÃO é de acesso aberto

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      GALVÃO, Luciano Ribeiro. Hybrid Machine Learning Algorithms in High-Dimensional Settings. 2025. Tese (Doutorado) – Universidade de São Paulo, Piracicaba, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/. Acesso em: 20 jan. 2026.
    • APA

      Galvão, L. R. (2025). Hybrid Machine Learning Algorithms in High-Dimensional Settings (Tese (Doutorado). Universidade de São Paulo, Piracicaba. Recuperado de https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
    • NLM

      Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
    • Vancouver

      Galvão LR. Hybrid Machine Learning Algorithms in High-Dimensional Settings [Internet]. 2025 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026