Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha (2025)
- Authors:
- Autor USP: JUCOVSKI, ANDRÉ GUSTAVO - IFSC
- Unidade: IFSC
- Sigla do Departamento: FCI
- DOI: 10.11606/D.76.2025.tde-28082025-105716
- Subjects: CRISTALOGRAFIA; APRENDIZADO COMPUTACIONAL; LISOZIMAS
- Keywords: Aprendizagem de máquina; Cristalografia de proteínas; Lysozyme; Machine learning; Phase problem; Problema das fases; Protein crystallography; XGBoost
- Agências de fomento:
- Language: Português
- Abstract: O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso deestruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
- Data da defesa: 08.05.2025
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
JUCOVSKI, André Gustavo. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/. Acesso em: 02 jan. 2026. -
APA
Jucovski, A. G. (2025). Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ -
NLM
Jucovski AG. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha [Internet]. 2025 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ -
Vancouver
Jucovski AG. Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha [Internet]. 2025 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ - Análise multiparamétrica do problema de fases em cristalografia de protéinas por aprendizado profundo. Caso de estudo:: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina. Caso de estudo: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina - caso de estudo: lisozima da clara do ovo de galinha
- Análise multiparamétrica do problema de fases em cristalografia de proteínas por aprendizado de máquina -caso de estudo:: lisozima da clara do ovo de galinha
Informações sobre o DOI: 10.11606/D.76.2025.tde-28082025-105716 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
