From data to decisions: yield-centric analytics as the foundation for trustworthy datadriven insights in agriculture (2025)
- Authors:
- Autor USP: WEI, MARCELO CHAN FU - ESALQ
- Unidade: ESALQ
- Sigla do Departamento: LEB
- DOI: 10.11606/T.11.2025.tde-06012026-154446
- Subjects: AGRICULTURA; ANÁLISE DE DADOS; CANA-DE-AÇÚCAR; CAUSALIDADE; FRUTAS CÍTRICAS; MODELOS PARA PROCESSOS ESTOCÁSTICOS; PREVISÃO (ANÁLISE DE SÉRIES TEMPORAIS); TOMADA DE DECISÃO
- Agências de fomento:
- Language: Inglês
- Abstract: Soluções baseadas em dados (SBD) são uma ferramenta transformadora na agricultura, mas sua adoção enfrenta desafios: (1) incompatibilidade entre dados de treinamento e condições locais, limitando decisões práticas no campo; (2) excesso de confiança em modelos globais que carecem de adaptação contextual; e (3) excesso de expectativa sobre os algoritmos de aprendizado de máquina (do inglês Machine Learning ML), agravadas pela opacidade e desigualdades estruturais. Esta tese supera essas lacunas ao integrar SBD com a experimentação na fazenda (do inglês On-Farm Experimentation OFE), ML e inferência causal. O Capítulo 1 estabelece a base teóricaa sinergia inexplorada entre SBD e OFE e suas limitações. Enquanto as SBD destacam-se na extração de padrões de conjuntos de dados, a OFE incorpora esses resultados às condições locais.O Capítulo 2 traduz a teoria em prática desenvolvendo uma lógica estrutural de Zonas de Estabilidade de Produtividade para citricultura. Utilizando dados temporais de produtividade (2012-2016) e ML interpretáveis (árvores de decisão - AD), o estudo identifica zonas de produção espacialmente consistentes e fatores que influenciaram a sua produção, como variedade de porta-enxerto e distribuição pluviométrica. Além disso, avaliações anuais isoladas falham em capturar variabilidade interanual. Apesar da facilidade de interpretação dos resultados pela AD, ela é limitada quanto a sua capacidade preditiva, motivando a investigação no Capítulo 3. O Capítulo 3avalia três modelos de ML - AD, Florestas Aleatórias (do inglês Random Forest -RF) e algoritmos de aumento de gradiente (como XGBoost) - para produtividade de cana-de-açúcar, utilizando ferramentas de inteligência artificial explicável (como SHAP e LIME). O XGBoost obteve maior acurácia (R2 = 0,94) apenas uma variável (variedade RB985476) apresentou-se consistentemente influente, enquanto outras (como fósforo e potássio) apresentam efeitos mistos. Assim, levanta-se um questionamento: essas associações estatísticas refletem causalidade? O Capítulo 4 responde esta questão integrando inferência causal a lógica estrutural. Analisando dados temporais de cana-de-açúcar, o estudo distingue fatores agronomicamente válidos (como pH e teor de cálcio solo) de correlações dúbias. Diagramas causais mapeiam relações entre variáveis, como a influência do pH na disponibilidade de fósforo, e que devidamente alinhado com resultados de ML e com conhecimento científico garantem que elas se tornem decisões práticasrequisito essencial para adoção pelos agricultores. Coletivamente, estes capítulos representam uma lógica estrutural escalável baseado em três pilares: (1) qualidade de dados (dados temporais de alta resolução); (2) interpretabilidade de modelos (abordagens híbridas como XGBoost + AD + SHAP); e (3) validação causal (distinção de variáveis com relações mecanísticas de aleatórias). A tese finaliza propondo um ciclo de melhoria contínua (Planejar-Fazer-Verificar-Agir do inglêsPlan-Do-Check-Act), onde resultados suportam OFE e tomadas de decisões. O sucesso da implementação depende de dados e validação dos resultados com especialistassem estes, a agricultura digital e de precisão permanece especulativa. Com a ciência de dados, agronomia e participação dos agricultores, este trabalho avança para uma agricultura orientada por dados. A inovação sustentável requer não apenas algoritmos avançados, mas também dados de qualidade, interpretabilidade e lógica causaluma mudança de paradigma para uma agricultura resiliente baseada em evidências na era das mudanças climáticas
- Imprenta:
- Publisher place: Piracicaba
- Date published: 2025
- Data da defesa: 31.10.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
WEI, Marcelo Chan Fu. From data to decisions: yield-centric analytics as the foundation for trustworthy datadriven insights in agriculture. 2025. Tese (Doutorado) – Universidade de São Paulo, Piracicaba, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/11/11152/tde-06012026-154446/. Acesso em: 10 maio 2026. -
APA
Wei, M. C. F. (2025). From data to decisions: yield-centric analytics as the foundation for trustworthy datadriven insights in agriculture (Tese (Doutorado). Universidade de São Paulo, Piracicaba. Recuperado de https://teses.usp.br/teses/disponiveis/11/11152/tde-06012026-154446/ -
NLM
Wei MCF. From data to decisions: yield-centric analytics as the foundation for trustworthy datadriven insights in agriculture [Internet]. 2025 ;[citado 2026 maio 10 ] Available from: https://teses.usp.br/teses/disponiveis/11/11152/tde-06012026-154446/ -
Vancouver
Wei MCF. From data to decisions: yield-centric analytics as the foundation for trustworthy datadriven insights in agriculture [Internet]. 2025 ;[citado 2026 maio 10 ] Available from: https://teses.usp.br/teses/disponiveis/11/11152/tde-06012026-154446/ - Towards a new approach to estimate soybean yield at the field level
- Spatial variability mapping of indaziflam and metribuzin sorption–desorption for precision weed control
- Soybean Yield Estimation and Its Components: A Linear Regression Approach
- Predictive power vs interpretability: Machine learning approaches to unravel sugarcane yield drivers
- High-resolution yield mapping for Eucalyptus grandis: a case study
- Near-infrared spectroscopy as a tool for monitoring the spatial variability of sugarcane quality in the fields
- Integrating stability zones and machine learning for enhanced crop management
- Energy analysis of sugarcane potential ethanol production from published data: a case study in Campos de Goytacazes – Brazil
- Spatial variability mapping of sugarcane qualitative attributes
- Carrot yield mapping: a precision agriculture approach based on machine learning
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
