Exportar registro bibliográfico


Metrics:

Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 (2023)

  • Authors:
  • Autor USP: CASSIANO, MURILO HENRIQUE ANZOLINI - FMRP
  • Unidade: FMRP
  • Sigla do Departamento: RBP
  • DOI: 10.11606/D.17.2023.tde-29062023-133316
  • Subjects: ANÁLISE DE SEQUÊNCIA DE DNA; GENOMAS; CORONAVIRUS; LINHAGEM CELULAR
  • Keywords: Alignment-free analysis; Análise de sequências; Análise livre de alinhamento; Estudos filogenéticos; Numerical representations of genomes; Phylogenetic studies; Representações numéricas de genomas; SARS-CoV-2; Sequence analysis
  • Agências de fomento:
  • Language: Português
  • Abstract: A pandemia da SARS-CoV-2 se espalhou pelo mundo causando quase 700 milhões de casos confirmados, sendo 34 milhões apenas no Brasil. Os coronavírus têm um dos maiores genomas entre todos os vírus RNA e, embora codifiquem exonucleases corretoras de erros, ainda hoje, novas linhagens ainda emergem, criando uma diversidade significativa de genomas. Nesse sentido, os esforços para o rastreamento de linhagens emergentes de SARS-CoV-2 geraram um volume expressivo e sem precedentes de dados públicos referentes à sequências genômicas. Todavia, lidar com tamanha quantidade de dados com técnicas convencionais dependentes de alinhamento é impraticável computacionalmente. Visando lidar com grandes conjuntos de dados e, ao mesmo tempo, com algumas das limitações das técnicas baseadas em alinhamentos, diversas metodologias foram propostas para codificação numérica e subsequente comparação de distâncias evolutivas entre genomas completos. Apesar da diversidade de técnicas disponíveis, há uma escassez de comparações criteriosas das metodologias existentes. Neste sentido, a grande disponibilidade de sequências de SARS-CoV-2 oferece uma oportunidade para aplicação de representações numéricas de genomas completos desenvolvidas nos últimos anos com foco em comparação de sequências virais. Neste trabalho testamos as representações numéricas baseadas em K-mer: Triplet Frequency, K-mer Natural Vector, Fast Vector, e Magnus Genomic Representation com sequências de coronaviridae (curadas e publicadas) e aproximadamente 86 mil genomas sequenciados no Brasil, obtidos do banco de dados GISAID EpiCov. Para cada dataset, comparamos i) medidas que sumarizam características estruturais, ii) correlações cofenéticas e iii) distâncias, entre as árvores feitas com as distâncias euclidianas das representações numéricas e aárvore construída a partir de alinhamento múltiplo de sequências com conseguinte estimação filogenética por máxima-verossimilhança. Também avaliamos a capacidade de cada representação testada em carregar consigo informações biológicas sabidas das sequências, como grupo taxonômico ou linhagem viral, via técnicas de redução de dimensionalidade. Vimos que no geral todas as representações numéricas revelaram algum padrão biológico esperado para agrupamento dos genomas virais e, embora as técnicas aqui exploradas, juntamente com uma das melhores e mais acuradas ferramentas publicada para comparação de sequências livre de alinhamento falhem em recuperar características globais da árvore filogenética de SARS-CoV-2, vimos que seu uso como entrada para o algoritmo neighbor-joining resultou em árvores que mantém a estrutura local, sendo aptas para separação de linhagens virais. Esperamos que estes resultados, juntamente com os códigos construídos para implementar a metodologia possam servir como base tanto para o desenvolvimento de ferramentas como para melhoria das técnicas de comparações genômicas livres de alinhamento
  • Imprenta:
  • Data da defesa: 17.04.2023
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.17.2023.tde-29062023-133316 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      CASSIANO, Murilo Henrique Anzolini. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2. 2023. Dissertação (Mestrado) – Universidade de São Paulo, Ribeirão Preto, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/. Acesso em: 26 dez. 2025.
    • APA

      Cassiano, M. H. A. (2023). Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 (Dissertação (Mestrado). Universidade de São Paulo, Ribeirão Preto. Recuperado de https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/
    • NLM

      Cassiano MHA. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 [Internet]. 2023 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/
    • Vancouver

      Cassiano MHA. Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2 [Internet]. 2023 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/17/17136/tde-29062023-133316/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025