Machine Learning Tools for Bioinformatics Problems (2020)
- Authors:
- Autor USP: PADILHA, VICTOR ALEXANDRE - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE DADOS; EXPRESSÃO GÊNICA; PROTEÍNAS; BIOINFORMÁTICA
- Keywords: Bi-Agrupamento; Biclustering; Cas proteins; CRISPR-Cas systems; Gene expression data analysis; Machine learning; Proteínas Cas; Sistemas CRISPR-Cas
- Agências de fomento:
- Language: Inglês
- Abstract: Recentemente, técnicas de aprendizado de máquina têm sido utilizadas de maneira extensiva em problemas de bioinformática, devido à sua capacidade na resolução de problemas complexos por meio do aprendizado de uma função a partir de uma amostra finita de exemplos, sendo tal função capaz de realizar predições para novos dados. Motivado por essas aplicações bem sucedidas, este trabalho aborda três problemas diferentes de bioinformática por meio de técnicas de aprendizado de máquina. O primeiro problema está relacionado ao uso de medidas de coerência para a análise de resultados de bi-agrupamento em análise de dados de expressão gênica. Especificamente, foi conduzida uma investigação detalhada acerca das correlações entre diferentes medidas de coerência de bi-grupos em uma coleção de 19 bases de dados do organismo Saccharomyces cerevisiae. Com isso, tornou-se possível identificar pares de medidas redundantes e observar que tais medidas não apresentam qualquer relação com conhecimento externo disponível no formato de ontologias de genes. O segundo problema está relacionado à classificação de instâncias do sistema CRISPR em seus diferentes subtipos e a predição de proteínas potencialmente ausentes em tais instâncias. Para isso, uma nova ferramenta, chamada CRISPRcasIdentifier, foi proposta, a qual integra modelos de classificação e regressão para as tarefas mencionadas. Tal ferramenta atingiu melhores resultados do que os competidores encontrados na literatura na base de dadosmais recente disponível. Ademais, a CRISPRcasIdentifier é a primeira ferramenta capaz de recomendar proteínas potencialmente ausentes em instâncias do sistema CRISPR. O terceiro problema está relacionado à identificação automática de instâncias do sistema CRISPR em genomas de organismos bacterianos e archaeanos. Para isso, a ferramenta Casboundary foi proposta, a qual detecta instâncias do CRISPR ao considerar as relações entre genes assinatura com seus vizinhos. Além disso, esta ferramenta é capaz de apontar genes cas potencialmente novos, tal como demonstrado em um estudo de caso. Finalmente, a ferramenta Casboundary é capaz de decompor as instâncias do CRISPR em seus diferentes módulos, os quais estão relacionados aos diferentes estágios do sistema CRISPR.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2020
- Data da defesa: 01.10.2020
-
ABNT
PADILHA, Victor Alexandre. Machine Learning Tools for Bioinformatics Problems. 2020. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2020. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03122020-111926/. Acesso em: 20 jan. 2026. -
APA
Padilha, V. A. (2020). Machine Learning Tools for Bioinformatics Problems (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03122020-111926/ -
NLM
Padilha VA. Machine Learning Tools for Bioinformatics Problems [Internet]. 2020 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03122020-111926/ -
Vancouver
Padilha VA. Machine Learning Tools for Bioinformatics Problems [Internet]. 2020 ;[citado 2026 jan. 20 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03122020-111926/ - Avaliação sistemática de técnicas de bi-agrupamento de dados
- Casboundary: automated definition of integral Cas cassettes
- CRISPRcasIdentifier: machine learning for accurate identification and classification of CRISPR-Cas systems
- Experimental correlation analysis of bicluster coherence measures and gene ontology information
- CRISPRloci: comprehensive and accurate annotation of CRISPR-Cas systems
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
