Exportar registro bibliográfico


Metrics:

Managing semantic evolution in databases: from theory to implementation (2025)

  • Authors:
  • Autor USP: NEPOMUCENO, PEDRO IVO SIQUEIRA - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2025.tde-09082025-221605
  • Subjects: BANCO DE DADOS; MODELAGEM DE DADOS; GERENCIADORES DE BANCO DE DADOS; PROCESSAMENTO DE DADOS
  • Keywords: Cisão; Data preprocessing; Databases; Evolução semântica; Fusão; Heterogeneidade semântica; Merging; Pre-processamento de dados; Query rewriting; Reescrita de consultas; Semantic evolution; Semantic heterogeneity; Splitting; Tradução; Translation
  • Language: Inglês
  • Abstract: A heterogeneidade semântica é um desafio comum na análise de conjuntos de dados que se estendem por longos períodos. Com o tempo, as fontes de dados podem mudar a forma como as informações são agrupadas, como as categorias são nomeadas ou quais unidades de medida são utilizadas. Consequentemente, consultar esses dados geralmente exige que os usuários estejam plenamente cientes de todas as inconsistências históricas e adaptem manualmente tanto suas consultas quanto a interpretação dos resultados um processo trabalhoso e sujeito a erros. Esta dissertação de mestrado apresenta fundamentos teóricos e ferramentas práticas para lidar com a evolução semântica de dados. Duas estratégias complementares são propostas: reescrita de consultas e pré-processamento dos dados. Para ambas, foram desenvolvidos modelos de armazenamento e algoritmos dedicados ao tratamento da evolução semântica, garantindo não apenas a recuperação correta dos registros, mas também sua compatibilidade semântica no momento da consulta. Um sistema protótipo, o MellowDB, foi desenvolvido para permitir que usuários consultem dados semanticamente heterogêneos sem a necessidade de lidar manualmente com a evolução semântica subjacente. Desde que um histórico completo das mudanças semânticas esteja disponível, é possível escrever consultas como se os dados fossem homogêneos obtendo, ainda assim, resultados consistentes e significativos. O arcabouço parte do pressuposto de que toda heterogeneidade semântica é causadapor operações de evolução discretas e datadas, que podem ser ordenadas cronologicamente. Três dessas operações são formalmente definidas e implementadas: tradução, fusão e cisão. O modelo, no entanto, é extensível para acomodar outros tipos de mudanças semânticas. O sistema foi avaliado com um conjunto de dados reais: as causas de óbito no Brasil entre 1979 e 2021. Esse conjunto ilustra dois tipos importantes de evolução semântica: a alteração do padrão de classificação baseada no CID-9 para o CID-10 em 1996 e a reestruturação ou renomeação frequente de municípios brasileiros ao longo do tempo. Os testes de desempenho mostram que ambas as estratégias são viáveis para uso em ambientes de produção, e a escolha entre elas depende principalmente das características da carga de trabalho especialmente da proporção entre leituras e gravações. Com a seleção correta da abordagem e boa indexação, o sistema consegue responder a consultas com um tempo adicional menor que um centésimo de segundo. A abordagem de pré-processamento de dados mostrou-se particularmente eficiente, superando de forma consistente a abordagem de reescrita de consultas na maioria dos cenários testados, embora a reescrita seja preferível em situações em que inserções representem mais de 95% das operações (cenários com predominância de escrita). Este trabalho traz uma contribuição inédita e prática para o campo da evolução semântica ao propor um arcabouço robusto para lidar com a heterogeneidade semântica eviabilizar consultas precisas e contínuas mesmo diante da evolução semântica, sem exigir do usuário o tratamento manual dela
  • Imprenta:
  • Data da defesa: 12.06.2025
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2025.tde-09082025-221605 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      NEPOMUCENO, Pedro Ivo Siqueira. Managing semantic evolution in databases: from theory to implementation. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09082025-221605/. Acesso em: 02 jan. 2026.
    • APA

      Nepomuceno, P. I. S. (2025). Managing semantic evolution in databases: from theory to implementation (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09082025-221605/
    • NLM

      Nepomuceno PIS. Managing semantic evolution in databases: from theory to implementation [Internet]. 2025 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09082025-221605/
    • Vancouver

      Nepomuceno PIS. Managing semantic evolution in databases: from theory to implementation [Internet]. 2025 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09082025-221605/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026