Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração (2025)
- Authors:
- Autor USP: CAMPOS, GABRIEL MONTENEGRO DE - FMRP
- Unidade: FMRP
- DOI: 10.11606/D.17.2025.tde-14072025-145632
- Subjects: APRENDIZADO COMPUTACIONAL; BIOINFORMÁTICA; MATÉRIA ESCURA; ALGORITMOS
- Keywords: Aprendizado de máquina; Bioinformática; Bioinformatics; Dark matter; Machine learning; Matéria escura; Metagenômica; Metagenomics; Perfis proteicos; Protein profiles
- Agências de fomento:
- Language: Português
- Abstract: Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae
- Imprenta:
- Publisher place: Ribeirão Preto
- Date published: 2025
- Data da defesa: 25.04.2025
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
CAMPOS, Gabriel Montenegro de. Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração. 2025. Dissertação (Mestrado) – Universidade de São Paulo, Ribeirão Preto, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/. Acesso em: 29 dez. 2025. -
APA
Campos, G. M. de. (2025). Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração (Dissertação (Mestrado). Universidade de São Paulo, Ribeirão Preto. Recuperado de https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ -
NLM
Campos GM de. Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração [Internet]. 2025 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ -
Vancouver
Campos GM de. Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração [Internet]. 2025 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ - Anellovirus abundance as an indicator for viral metagenomic classifier utility in plasma samples
- Exploring viral metagenomics in pediatric patients with acute respiratory infections: unveiling pathogens beyond SARS-CoV-2
- Human pegivirus-1 detection and genotyping in Brazilian patients with fulminant hepatitis
Informações sobre o DOI: 10.11606/D.17.2025.tde-14072025-145632 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
