Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha (2025)
- Authors:
- Autor USP: JUCOVSKI, ANDRÉ GUSTAVO - IFSC
- Unidade: IFSC
- Sigla do Departamento: FCI
- DOI: 10.11606/D.76.2025.tde-28082025-105716
- Subjects: CRISTALOGRAFIA; APRENDIZADO COMPUTACIONAL; LISOZIMAS
- Keywords: Aprendizagem de máquina; Cristalografia de proteínas; Lysozyme; Machine learning; Phase problem; Problema das fases; Protein crystallography; XGBoost
- Agências de fomento:
- Language: Português
- Abstract: O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso deestruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
- Data da defesa: 08.05.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
JUCOVSKI, André Gustavo. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/. Acesso em: 11 abr. 2026. -
APA
Jucovski, A. G. (2025). Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ -
NLM
Jucovski AG. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha [Internet]. 2025 ;[citado 2026 abr. 11 ] Available from: https://teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ -
Vancouver
Jucovski AG. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha [Internet]. 2025 ;[citado 2026 abr. 11 ] Available from: https://teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ - Análise multiparamétrica do problema de fases em cristalografia de protéinas por aprendizado profundo. Caso de estudo:: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina -caso de estudo:: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina - caso de estudo: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina. Caso de estudo: lisozima da clara do ovo de galinha
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
