Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets (2022)
- Authors:
- Autor USP: AMGARTEN, DEYVID EMANUEL - BIOINFORMÁTICA
- Unidade: BIOINFORMÁTICA
- DOI: 10.11606/T.95.2022.tde-17022022-091454
- Subjects: APRENDIZADO COMPUTACIONAL; BACTERIÓFAGOS; VÍRUS
- Keywords: Aprendizado de máquina; Fagos; Host prediction; Machine learning; Metagenômica; Metagenomics; Phage prediction; Phages; Predição de hospedeiro viral; Prokaryotic viruses; Virology; Vírus ambientais; Vírus de procariotos
- Agências de fomento:
- Language: Inglês
- Abstract: Vírus ambientais são extremamente diversos e abundantes na biosfera. Estudos têm demostrado que vírus que infectam procariotos (ou simplesmente fagos) são determinantes no direcionamento de ciclos biogeoquímicos em oceanos, além de influenciarem de forma significativa a diversificação de seus hospedeiros. Sem considerar esse papel ecológico, fagos também estão sendo utilizados para propósitos clínicos graças à habilidade de infectar bactérias e terminar infecções bacterianas. Um passo crucial para esta aplicação é o isolamento de fagos que tenham como alvo um determinado patógeno bacteriano de interesse. Para isso, pesquisadores geralmente recorrem a amostras ambientais num processo dispendioso de tentativa e erro de isolamento experimental. Ter informações importantes sobre a diversidade de fagos em uma amostra, assim como potenciais hospedeiros poderia ajudar neste processo. Sendo assim, nesta tese nós propomos o desenvolvimento de um pipeline de bioinformática para recuperação de genomas de fagos de amostras ambientais, assim como para predição de hospedeiros desses genomas. Para atingir esse objetivo, nós treinamos um classificador random forest para diferenciação de sequências de fagos e o implementamos na ferramenta chamada de MARVEL. Nós também desenvolvemos a ferramenta chamada vHULK, que é capaz de predizer hospedeiros bacterianos dada a sequência do genoma do fago. Ambas as ferramentas apresentam alta acurácia e performance quando comparadas com o estado da arte emcada problema de predição. Resultados gerados pela aplicação das ferramentas desenvolvidas nesta tese em datasets metagenômicos de compostagem e solo são apresentados como uma prova de conceito e estudo de caso. Ambas as ferramentas encontram-se disponíveis no repositório público: https://github.com/LaboratorioBioinformatica/
- Imprenta:
- Data da defesa: 28.01.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
AMGARTEN, Deyvid Emanuel. Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets. 2022. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17022022-091454/. Acesso em: 05 nov. 2024. -
APA
Amgarten, D. E. (2022). Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17022022-091454/ -
NLM
Amgarten DE. Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets [Internet]. 2022 ;[citado 2024 nov. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17022022-091454/ -
Vancouver
Amgarten DE. Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets [Internet]. 2022 ;[citado 2024 nov. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17022022-091454/ - Análise computacional da diversidade viral presente na comunidade microbiana do processo de compostagem do Zoológico de São Paulo
- Novel virocell metabolic potential revealed in agricultural soils by virus-enriched soil metagenome analysis
- Doutorando da USP desenvolve teste genético para vírus que causa febre hemorrágica [Depoimento a Fabiana Mariz]
- vHULK, a new tool for bacteriophage host prediction based on annotated genomic features and deep neural networks
- Mortality in sea lions is associated with the introduction of the H5N1 clade 2.3.4.4b virus in Brazil October 2023: whole genome sequencing and phylogenetic analysis
- Immune evasion of SARS-CoV-2 omicron subvariants XBB.1.5, XBB.1.16 and EG.5.1 in a cohort of older adults after ChAdOx1-S vaccination and BA.4/5 bivalent Booster
- Virologia prospectiva: estratégias para responder a emergências em saúde
Informações sobre o DOI: 10.11606/T.95.2022.tde-17022022-091454 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas