Anomaly Detection and Root Cause Analysis in Cloud-Native Environments Using Large Language Models and Bayesian Networks (2025)
- Authors:
- Autor USP: PEDROSO, DIEGO FRAZATTO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SSC
- DOI: 10.11606/T.55.2025.tde-27082025-141523
- Subjects: COMPUTAÇÃO EM NUVEM; CONFIABILIDADE DE SOFTWARE; APRENDIZADO COMPUTACIONAL; TECNOLOGIA DA INFORMAÇÃO
- Keywords: Automated root cause analysis; Bayesian networks; Cloud computing; Computação em nuvem; Detecção de anomalias; LLM; LLM; Redes bayesianas
- Agências de fomento:
- Language: Inglês
- Abstract: As tecnologias de computação em nuvem oferecem vantagens significativas em escalabilidade e desempenho, permitindo a rápida implantação de aplicativos. No entanto, a crescente complexidade dos sistemas nativos da nuvem introduz riscos de confiabilidade. Lidar com esses riscos é uma responsabilidade essencial dos provedores de serviços de TI, pois eles desempenham um papel crítico na manutenção da estabilidade do sistema e na garantia da entrega confiável de serviços. Essa complexidade resulta na geração de grandes quantidades de logs de diversas fontes, tornando a análise desses eventos uma tarefa inerentemente desafiadora, principalmente na ausência de automação. Para resolver esse problema, as técnicas de Machine Learning que utilizam Large Language Models (LLMs) oferecem uma abordagem promissora para identificar dinamicamente padrões dentro desses eventos. Neste estudo, propomos uma nova estrutura de detecção de anomalias utilizando uma arquitetura de microsserviços implantada no Kubernetes e Istio, aprimorada por um modelo LLM. O modelo foi treinado em vários cenários de erro, com o Chaos Mesh empregado como uma ferramenta de injeção de erro para simular falhas de diferentes naturezas, e o Locust usado como um gerador de carga para criar condições de estresse de carga de trabalho. Depois que uma anomalia é detectada pelo modelo LLM, empregamos uma rede bayesiana dinâmica para fornecer inferências probabilísticas sobre o incidente, provando as relações entre oscomponentes e avaliando o grau de impacto entre eles. Além disso, um ChatBot alimentado pelo mesmo modelo LLM permite que os usuários interajam com a IA, façam perguntas sobre o incidente detectado e obtenham insights mais profundos. Os resultados experimentais demonstraram a eficácia do modelo, identificando de forma confiável todos os eventos de erro em vários cenários de teste. Embora tenha evitado com sucesso a falta de anomalias, ele produziu alguns falsos positivos, que permanecem dentro dos limites aceitáveis.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
- Data da defesa: 30.04.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
PEDROSO, Diego Frazatto. Anomaly Detection and Root Cause Analysis in Cloud-Native Environments Using Large Language Models and Bayesian Networks. 2025. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27082025-141523/. Acesso em: 21 fev. 2026. -
APA
Pedroso, D. F. (2025). Anomaly Detection and Root Cause Analysis in Cloud-Native Environments Using Large Language Models and Bayesian Networks (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27082025-141523/ -
NLM
Pedroso DF. Anomaly Detection and Root Cause Analysis in Cloud-Native Environments Using Large Language Models and Bayesian Networks [Internet]. 2025 ;[citado 2026 fev. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27082025-141523/ -
Vancouver
Pedroso DF. Anomaly Detection and Root Cause Analysis in Cloud-Native Environments Using Large Language Models and Bayesian Networks [Internet]. 2025 ;[citado 2026 fev. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27082025-141523/ - Leveraging large language models for anomaly detection in microservices architectures
- Conceptual and comparative analysis of application metrics in microservices
- Anomaly detection and root cause analysis in cloud-native environments using large language models and Bayesian networks
- AWS powered cloud research environment PaaS
Informações sobre o DOI: 10.11606/T.55.2025.tde-27082025-141523 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
