Exportar registro bibliográfico

Análise quantitativa do impacto da ausência de dados. (2021)

  • Authors:
  • Autor USP: CAMPOS, DEBORA RIBEIRO DOIMO DE - EP
  • Unidade: EP
  • Sigla do Departamento: PCS
  • Subjects: REGRESSÃO LOGÍSTICA; BIG DATA; INFORMAÇÃO; TECNOLOGIA DA INFORMAÇÃO
  • Language: Português
  • Abstract: Hoje o Big Data já faz parte do cotidiano das pessoas e está em itens como: assistentes virtuais, Siri e Alexa; carros autônomos; recomendações de compras; sistemas antifraude; aplicações na área da saúde, como monitoramento cardíaco e de passos; etc. Essas novas tecnologias facilitam muito o dia a dia da população, geram negócios e consequentemente produzem um imenso volume de dados a serem armazenados, analisados e tratados. Com o grande volume de dados, surgem também problemas como outliers, atributos vazios e replicados, que caracterizam baixa qualidade da informação. Um dos tipos mais comuns de baixa qualidade da informação é ausência de dados. Essa falta de dados acarreta vários problemas, como a redução do poder estatístico, distorção da estimativa de parâmetros e redução na representatividade das amostras, que impactam a análise do estudo. A maioria das ausências acontece mais comumente em pesquisas respondidas manualmente, transcrições ou anotações, em falha de sensores e em bases de dados de sistemas que possuem algum equívoco de lógica. Por isso, são muito frequentes no dia a dia de profissionais de tecnologia, pesquisadores e cientistas, especialmente para aqueles que trabalham e processam grandes volumes de dados. Boa parte dos trabalhos recentes relacionados ao tema ausência de dados, focam em como tratar ou resolver a falta de dados e não necessariamente, é voltado a compreender o real impacto dessa omissão. Por consequência, o objetivo central desta dissertação é responder a seguinte pergunta: "Como uma análise de dados, feita utilizando um algoritmo preditivo, é impactada pelos dados ausentes?". Então, foi codificada uma versão do algoritmo Logistic Regression, para testar essas situações. Na qual foram implementados alguns cenários, que consistiu em aumentar progressivamente aomissão em dados de treino e de teste. Após codificar toda essa lógica, foram usados os dados da Flor de Íris, que é amplamente reconhecida no meio acadêmico-científico, para testar a solução e servir como demonstrativo da prova de conceito. Depois de executar o algoritmo, foram obtidos os resultados da Acurácia e da Matriz de Confusão da regressão em cada cenário. A partir da análise dos resultados, conclui-se que o aumento das omissões diminui a assertividade do algoritmo Logistic Regression utilizando-se o dataset Flor de Íris, quando comparada a Acurácia do cenário completo com o cenário de ausências em 60%. Contudo, não é em todas as situações que o acréscimo de incompletudes piorou o resultado. Logo, é difícil de afirmar que em todos os cenários, quanto maior o número de ausências pior é a qualidade da análise.
  • Imprenta:
  • Data da defesa: 20.05.2021
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      CAMPOS, Débora Ribeiro Doimo de. Análise quantitativa do impacto da ausência de dados. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-31082021-111051/. Acesso em: 13 out. 2024.
    • APA

      Campos, D. R. D. de. (2021). Análise quantitativa do impacto da ausência de dados. (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3141/tde-31082021-111051/
    • NLM

      Campos DRD de. Análise quantitativa do impacto da ausência de dados. [Internet]. 2021 ;[citado 2024 out. 13 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-31082021-111051/
    • Vancouver

      Campos DRD de. Análise quantitativa do impacto da ausência de dados. [Internet]. 2021 ;[citado 2024 out. 13 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-31082021-111051/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024