Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina (2018)
- Authors:
- Autor USP: SANTOS, HELLEN GEREMIAS DOS - FSP
- Unidade: FSP
- Sigla do Departamento: HEP
- DOI: 10.11606/T.6.2018.tde-09102018-132826
- Subjects: PREDIÇÃO; PROGNÓSTICO; QUALIDADE DE VIDA; ESPERANÇA DE VIDA; MORTALIDADE; MEDICINA; SAÚDE PÚBLICA; APRENDIZADO COMPUTACIONAL; INTELIGÊNCIA ARTIFICIAL
- Agências de fomento:
- Language: Português
- Abstract: Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo "Saúde, Bem-estar e Envelhecimento" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI.Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras.
- Imprenta:
- Data da defesa: 28.09.2018
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
SANTOS, Hellen Geremias dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina. 2018. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2018. Disponível em: https://doi.org/10.11606/T.6.2018.tde-09102018-132826. Acesso em: 31 mar. 2026. -
APA
Santos, H. G. dos. (2018). Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://doi.org/10.11606/T.6.2018.tde-09102018-132826 -
NLM
Santos HG dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina [Internet]. 2018 ;[citado 2026 mar. 31 ] Available from: https://doi.org/10.11606/T.6.2018.tde-09102018-132826 -
Vancouver
Santos HG dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina [Internet]. 2018 ;[citado 2026 mar. 31 ] Available from: https://doi.org/10.11606/T.6.2018.tde-09102018-132826 - Poisson regression for the incidence risk of lung, bronchus, and trachea cancer among women and men in the five Brazilian regions
- Data leakage in health outcomes prediction with machine learning
- Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
- Cause-specific mortality prediction in older residents of São Paulo, Brazil: a machine learning approach
- Fatores associados ao nascimento pré-termo: da regressão logística à modelagem com equações estruturais
- Does machine learning have a high performance to predict obesity among adults and older adults? A systematic review and meta-analysis
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
