Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 (2023)
- Authors:
- Autor USP: CASSIANO, MURILO HENRIQUE ANZOLINI - FMRP
- Unidade: FMRP
- Sigla do Departamento: RBP
- DOI: 10.11606/D.17.2023.tde-29062023-133316
- Subjects: ANÁLISE DE SEQUÊNCIA DE DNA; GENOMAS; CORONAVIRUS; LINHAGEM CELULAR
- Keywords: Alignment-free analysis; Análise de sequências; Análise livre de alinhamento; Estudos filogenéticos; Numerical representations of genomes; Phylogenetic studies; Representações numéricas de genomas; SARS-CoV-2; Sequence analysis
- Agências de fomento:
- Language: Português
- Abstract: A pandemia da SARS-CoV-2 se espalhou pelo mundo causando quase 700 milhões de casos confirmados, sendo 34 milhões apenas no Brasil. Os coronavírus têm um dos maiores genomas entre todos os vírus RNA e, embora codifiquem exonucleases corretoras de erros, ainda hoje, novas linhagens ainda emergem, criando uma diversidade significativa de genomas. Nesse sentido, os esforços para o rastreamento de linhagens emergentes de SARS-CoV-2 geraram um volume expressivo e sem precedentes de dados públicos referentes à sequências genômicas. Todavia, lidar com tamanha quantidade de dados com técnicas convencionais dependentes de alinhamento é impraticável computacionalmente. Visando lidar com grandes conjuntos de dados e, ao mesmo tempo, com algumas das limitações das técnicas baseadas em alinhamentos, diversas metodologias foram propostas para codificação numérica e subsequente comparação de distâncias evolutivas entre genomas completos. Apesar da diversidade de técnicas disponíveis, há uma escassez de comparações criteriosas das metodologias existentes. Neste sentido, a grande disponibilidade de sequências de SARS-CoV-2 oferece uma oportunidade para aplicação de representações numéricas de genomas completos desenvolvidas nos últimos anos com foco em comparação de sequências virais. Neste trabalho testamos as representações numéricas baseadas em K-mer: Triplet Frequency, K-mer Natural Vector, Fast Vector, e Magnus Genomic Representation com sequências de coronaviridae (curadas e publicadas) e aproximadamente 86 mil genomas sequenciados no Brasil, obtidos do banco de dados GISAID EpiCov. Para cada dataset, comparamos i) medidas que sumarizam características estruturais, ii) correlações cofenéticas e iii) distâncias, entre as árvores feitas com as distâncias euclidianas das representações numéricas e aárvore construída a partir de alinhamento múltiplo de sequências com conseguinte estimação filogenética por máxima-verossimilhança. Também avaliamos a capacidade de cada representação testada em carregar consigo informações biológicas sabidas das sequências, como grupo taxonômico ou linhagem viral, via técnicas de redução de dimensionalidade. Vimos que no geral todas as representações numéricas revelaram algum padrão biológico esperado para agrupamento dos genomas virais e, embora as técnicas aqui exploradas, juntamente com uma das melhores e mais acuradas ferramentas publicada para comparação de sequências livre de alinhamento falhem em recuperar características globais da árvore filogenética de SARS-CoV-2, vimos que seu uso como entrada para o algoritmo neighbor-joining resultou em árvores que mantém a estrutura local, sendo aptas para separação de linhagens virais. Esperamos que estes resultados, juntamente com os códigos construídos para implementar a metodologia possam servir como base tanto para o desenvolvimento de ferramentas como para melhoria das técnicas de comparações genômicas livres de alinhamento
- Imprenta:
- Publisher place: Ribeirão Preto
- Date published: 2023
- Data da defesa: 17.04.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
CASSIANO, Murilo Henrique Anzolini. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2. 2023. Dissertação (Mestrado) – Universidade de São Paulo, Ribeirão Preto, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/. Acesso em: 26 dez. 2025. -
APA
Cassiano, M. H. A. (2023). Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 (Dissertação (Mestrado). Universidade de São Paulo, Ribeirão Preto. Recuperado de https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/ -
NLM
Cassiano MHA. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 [Internet]. 2023 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/ -
Vancouver
Cassiano MHA. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 [Internet]. 2023 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/ - Benchmarking bacterial promoter prediction tools: potentialities and limitations
- Development of novel model for bacterial promoter prediction
- Mining novel cis-regulatory elements from the emergent host Rhodosporidium toruloides using transcriptomic data
- HIV-1 nef changes the proteome of T cells extracellular vesicles depleting IFITMs and other antiviral factors
- Uncovering the counterfeit: a study of whiskey authenticity through volatile organic compound fingerprinting, aroma and color sensory analysis
- A novel Cys2His2 zinc finger homolog of AZF1 modulates holocellulase expression in Trichoderma reesei
- Tonsils are major sites of persistence of SARS-CoV-2 in children
Informações sobre o DOI: 10.11606/D.17.2023.tde-29062023-133316 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas