BioAutoML: Democratizing Machine Learning in Life Sciences (2024)
- Authors:
- Autor USP: BONIDIA, ROBSON PARMEZAN - ICMC
- Unidade: ICMC
- Sigla do Departamento: SME
- DOI: 10.11606/T.55.2024.tde-01042024-092414
- Subjects: APRENDIZADO COMPUTACIONAL; BIOINFORMÁTICA; ANÁLISE DE DADOS; ASSISTÊNCIA À SAÚDE
- Keywords: Automated feature engineering; BioAutoML; BioAutoML; Biological sequences; Descritores matemáticos; Engenharia de características automatizada; Mathematical descriptors; MathFeature; MathFeature; Meta-aprendizado; Metalearning; Sequências biológicas
- Agências de fomento:
- Language: Inglês
- Abstract: Avanços tecnológicos recentes permitiram uma expansão exponencial dos dados de sequências biológicas e a extração de informações significativas por meio de algoritmos de Aprendizado de Máquina (AM). Esse conhecimento aprimorou a compreensão dos mecanismos relacionados a várias doenças fatais, como o câncer e a COVID-19, contribuindo para o desenvolvimento de soluções inovadoras, como a edição de genes com base no CRISPR, vacinas contra o coronavírus e medicina de precisão. Esses avanços beneficiam nossa sociedade e economia, impactando diretamente a vida das pessoas em várias áreas, como cuidados de saúde, descoberta de medicamentos, análise forense e análise de alimentos. No entanto, abordagens de AM aplicadas a dados biológicos requerem características representativas, quantitativas e informativas. Necessariamente, uma vez que muitos algoritmos de AM só podem lidar com dados numéricos, as sequências precisam ser traduzidas em um vetor de características. Esse processo, conhecido como extração de características, é uma etapa fundamental para a elaboração de modelos de AM de alta qualidade em bioinformática, permitindo a etapa de engenharia de características, com o design e seleção de características adequadas. A engenharia de características, a seleção de algoritmos de AM e o ajuste de hiperparâmetros são frequentemente processos manuais e demorados, que requerem amplo conhecimento do domínio e são realizados manualmente por um especialista humano. Para lidar com esseproblema, desenvolvemos um novo pacote, o BioAutoML, que executa automaticamente um pipeline de AM de ponta a ponta. O BioAutoML extrai características numéricas e informativas de bancos de dados de sequências biológicas, automatizando a seleção de características, a recomendação de algoritmos de AM e o ajuste de hiperparâmetros, usando o Aprendizado de Máquina Automatizado (AutoML). O BioAutoML possui dois componentes, divididos em quatro módulos: (1) engenharia de características automatizada (módulos de extração e seleção de características) e (2) Meta-Aprendizado (módulos de recomendação de algoritmos e ajuste de hiperparâmetros). Nossos resultados experimentais, ao avaliar a relevância de nossa proposta, indicam resultados robustos para diferentes domínios de problemas, como SARS-CoV-2, peptídeos anticancerígenos, sequências de HIV e RNAs não codificadores. De acordo com nossa revisão sistemática, nossa proposta é inovadora em comparação com estudos disponíveis na literatura, sendo o primeiro estudo a propor engenharia de características automatizada e metalearning para sequências biológicas. O BioAutoML tem um alto potencial para reduzir significativamente a expertise necessária para usar pipelines de AM, auxiliando os pesquisadores no combate a doenças, principalmente em países de baixa e média renda. Esta iniciativa pode oferecer aos biólogos, médicos, epidemiologistas e outras partes interessadas a oportunidade de utilizar amplamente essas técnicas para aprimorar asaúde e o bem-estar de suas comunidades.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Data da defesa: 31.01.2024
- Status:
- Artigo possui versão em acesso aberto em repositório (Green Open Access)
- Versão do Documento:
- Versão submetida (Pré-print)
- Acessar versão aberta:
-
ABNT
BONIDIA, Robson Parmezan. BioAutoML: Democratizing Machine Learning in Life Sciences. 2024. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/. Acesso em: 01 abr. 2026. -
APA
Bonidia, R. P. (2024). BioAutoML: Democratizing Machine Learning in Life Sciences (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ -
NLM
Bonidia RP. BioAutoML: Democratizing Machine Learning in Life Sciences [Internet]. 2024 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ -
Vancouver
Bonidia RP. BioAutoML: Democratizing Machine Learning in Life Sciences [Internet]. 2024 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ - Pilot sequence allocation schemes in massive MIMO systems using heuristic approaches
- BioAutoML: democratizing machine learning in life sciences
- Democratising artificial intelligence for pandemic preparedness and global governance in latin american and caribbean countries
- Procedural versus human level generation: two sides of the same coin?
- A novel decomposing model with evolutionary algorithms for feature selection in long non-coding RNAs
- MathFeature: feature extraction package for DNA, RNA and protein sequences based on mathematical
- Feature extraction approaches for biological sequences: a comparative study of mathematical features
- Breaking barriers: democratizing machine learning for RNA-protein interaction prediction in life sciences
- Ciência de dados: fundamentos e aplicações
- CRISPRloci: comprehensive and accurate annotation of CRISPR-Cas systems
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
