Exportar registro bibliográfico

Enriching data analytics with incremental data cleaning and attribute domain management (2021)

  • Authors:
  • Autor USP: OLIVEIRA, PAULO HENRIQUE DE - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: ANÁLISE DE DADOS; BANCO DE DADOS RELACIONAIS; PROCESSAMENTO DE IMAGENS; PROGRAMAÇÃO ORIENTADA A OBJETOS
  • Keywords: Attribute domain; Consulta de domínio; Data analytics; Data quality; Domain index; Domain query; Domínio de atributos; Incremental data cleaning; Índice de domínio; Limpeza de dados Incremental; Qualidade de dados
  • Agências de fomento:
  • Language: Inglês
  • Abstract: Na presente era do Big Data, as organizações têm se tornado mais orientadas a dados, buscando melhorar seus processos de tomada de decisão com base em sólidas práticas de Análises de Dados. Diversos passos constituem o processo de Análises de Dados e todos envolvem abordagens e tecnologias específicas, que estão evoluindo constantemente. De maneira a acomodar as novas necessidades e tendências, há sempre espaço para melhorias nos passos de Análises de Dados. Nesse contexto, esta pesquisa de doutorado focou em melhorar dois desses passos: (i) limpeza de dados e (ii) análise de dados. Com relação ao primeiro, esta pesquisa lidou com o problema de realizar limpeza de dados incrementalmente, considerando cenários dinâmicos com novos lotes de dados, bem como holisticamente, isto é, juntamente levando em consideração múltiplos critérios para detecção de erros. Como resultado, desenvolveu-se um arcabouço para limpeza de dados incremental que supera significativamente os competidores, permitindo uma maior eficiência ao mesmo tempo em que se compromete pouco a qualidade de reparo, bem como trata o problema de forma inovadora, portanto preenchendo uma lacuna na literatura. Referente ao segundo passo, abordou-se o problema de manipular consultas sobre um Domínio de Atributos, que consiste no conjunto de valores que compõe um domínio de atributos, normalmente armazenados em múltiplas relações. Como resultado, propôs-se três contribuições: (a) o Índice de Domínio, um método de acessovoltado à execução eficiente de consultas sobre Domínios de Atributos, também chamadas de Consultas de Domínio; (b) um estudo de caso abrangente de Índices de Domínio aplicados sobre o domínio médico, focando em Consultas de Domínio baseadas em conteúdo para auxiliar profissionais da saúde no processo de tomada de decisão; e (c) uma abordagem para incluir suporte a Domínios de Atributos como cidadãos de primeira classe em um Sistema de Gerenciamento de Bancos de Dados Relacional (SGBDR). Juntas, essas contribuições focam em uma categoria distinta de consultas que, até a execução desta pesquisa de doutorado, não havia sido abordada na literatura. Resultados experimentais destacam o desempenho superior do Índice de Domínio comparado às técnicas existentes de SGBDRs modernos, que não somente são ineficientes sob diversos aspectos, como também não são aplicáveis a certos cenários. Portanto, essas contribuições também enriquecem análises de dados subsequentes. Assim, esta pesquisa de doutorado avança o estado da arte no campo de Análises de Dados, bem como abre diversas portas de trabalhos futuros.
  • Imprenta:
  • Data da defesa: 30.04.2021
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      OLIVEIRA, Paulo Henrique de. Enriching data analytics with incremental data cleaning and attribute domain management. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-120503/. Acesso em: 01 abr. 2026.
    • APA

      Oliveira, P. H. de. (2021). Enriching data analytics with incremental data cleaning and attribute domain management (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-120503/
    • NLM

      Oliveira PH de. Enriching data analytics with incremental data cleaning and attribute domain management [Internet]. 2021 ;[citado 2026 abr. 01 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-120503/
    • Vancouver

      Oliveira PH de. Enriching data analytics with incremental data cleaning and attribute domain management [Internet]. 2021 ;[citado 2026 abr. 01 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-120503/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026