Analyzing productivity in open source software development: an explainable AI approach using SHAP and causal discovery (2025)
- Authors:
- Autor USP: GUT, CHRISTIAN MANFRED TONI - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/T.45.2025.tde-01092025-084702
- Subjects: ALGORITMOS; ENGENHARIA DE SOFTWARE; INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; DESENVOLVIMENTO DE SOFTWARE; SOFTWARE LIVRE
- Keywords: Algoritmo FCI; Causal discovery; Causal inference; Descoberta causal; Empirical software engineering; Engenharia de software empírica; Explainable AI; FCI algorithm; Framework SPACE; GitHub; Inferência causal; Inteligência artificial explicável; Métricas de produtividade; Mineração de repositórios de software; Mining software repositories; Open source software; Productivity metrics; SHAP; Software de código aberto; SPACE framework
- Language: Inglês
- Abstract: À medida que o software se torna cada vez mais importante, cresce o foco em desenvolvê-lo de maneira eficaz e eficiente. Nesse contexto, o software de código aberto desperta um interesse particular entre os pesquisadores devido à transparência de seu processo de desenvolvimento. Esta tese aproveita essa transparência ao aplicar métodos de Inteligência Artificial Explicável (Explainable AI, XAI) a dados minerados do GitHub, com o objetivo de entender quais fatores influenciam a produtividade no desenvolvimento de software de código aberto. Para lidar com a complexidade do desenvolvimento de software, foi adotada uma abordagem multidimensional, baseada no framework SPACE, utilizando cinco métricas diferentes de produtividade: Developer Churn (rotatividade de desenvolvedores), Stars Added (número de estrelas adicionadas), LOC per Developer (linhas de código por desenvolvedor), Merge Times (tempo de merges) e Issue Solution Times (tempos de resolução de issues). Aproveitando a riqueza de dados vindo do histórico de commits do Git e da API do GitHub, foi gerado um conjunto de variáveis para abordar a estrutura da equipe, a estrutura do código-fonte e as práticas de engenharia de software. Essas variáveis foram utilizadas para treinar modelos de aprendizado de máquina com o objetivo de prever cada uma das cinco métricas de produtividade. Usando SHapley Additive exPlanations (SHAP), foi possível avaliar a importância dessas variáveis de entrada, fornecendo um entendimento sobrequais fatores podem ser mais críticos para cada métrica de produtividade. Para oferecer uma compreensão adicional, as variáveis mais importantes também foram utilizadas como entrada para o algoritmo FCI, um método computacional que ajuda a descobrir relações causais. A análise dos valores SHAP e dos grafos causais gerados pelo algoritmo FCI levou à conclusão de que a forma tradicional de medir produtividade em desenvolvimento de software pode não se aplicar na integra ao contexto de código aberto, pois contribuições esporádicas podem levar a interpretações equivocadas das métricas de produtividade. A tese também identificou a idade dos arquivos (File Age) como um fator relevante, exercendo uma influência positiva sobre várias métricas de produtividade quando novas funcionalidades estão sendo desenvolvidas, em comparação com a manutenção de funcionalidades existentes. Por fim, a Centralidade de Proximidade (Closeness Centrality), uma métrica de rede derivada das interações e colaborações da equipe, mostrou exercer uma correlação positiva significativa ou até mesmo influência sobre diversas medidas de produtividade
- Imprenta:
- Data da defesa: 26.08.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
GUT, Christian. Analyzing productivity in open source software development: an explainable AI approach using SHAP and causal discovery. 2025. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-084702/. Acesso em: 24 jan. 2026. -
APA
Gut, C. (2025). Analyzing productivity in open source software development: an explainable AI approach using SHAP and causal discovery (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-084702/ -
NLM
Gut C. Analyzing productivity in open source software development: an explainable AI approach using SHAP and causal discovery [Internet]. 2025 ;[citado 2026 jan. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-084702/ -
Vancouver
Gut C. Analyzing productivity in open source software development: an explainable AI approach using SHAP and causal discovery [Internet]. 2025 ;[citado 2026 jan. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-084702/
Informações sobre o DOI: 10.11606/T.45.2025.tde-01092025-084702 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
