Exportar registro bibliográfico


Metrics:

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (2022)

  • Authors:
  • Autor USP: SILVA, ANA GABRIELA FARIA DA - IME
  • Unidade: IME
  • Sigla do Departamento: MAE
  • DOI: 10.11606/D.45.2022.tde-04072022-160436
  • Subjects: MINERAÇÃO DE DADOS; APRENDIZADO COMPUTACIONAL
  • Keywords: Aprendizado automático; Classificação de atividades econômicas; Classificação hierárquica; Classification of economic activities; Hierarchical classification; Machine learning; Mineração de dados textuais; Text mining; Web scraping
  • Language: Português
  • Abstract: O papel das estatísticas é produzir informações que busquem retratar a realidade. Para que isso seja possível, se faz necessário o estabelecimento de padrões. As estatísticas econômicas no Brasil, seguindo diretrizes internacionais, adotam a Classificação Nacional de Atividades Econômicas (CNAE) para caracterizar as atividades desenvolvidas pelas empresas. A CNAE possui uma estrutura hierárquica onde quanto maior o número de dígitos mais específica é a atividade descrita. Este trabalho objetiva avaliar o uso do aprendizado supervisionado, no âmbito da mineração de dados textuais, para a obtenção da CNAE que corresponde à atividade econômica principal das empresas. Para tanto, são utilizados textos como variáveis preditoras, obtidos via web scraping, de páginas da web e o oriundo da própria URL da companhia. Tanto a URL quanto a variável resposta, a CNAE, têm como origem as Pesquisas Estruturais por Empresa, do Instituto Brasileiro de Geografia e Estatística (IBGE). Por conta da estrutura hierárquica da classificação são testadas duas abordagens para o ajuste dos modelos. A primeira, denominada classificação plana, tem por objetivo obter diretamente a classe mais específica. Já a segunda, enquadrada na categoria de classificação hierárquica, consiste na construção de diversos classificadores locais independentes para cada nível da hierarquia de classes. Nos dois casos, dentre os algoritmos testados, a Regressão Logística apresentou o melhor desempenho, se mostrando apta paraextrair padrões capazes de identificar a classificação. As duas abordagens forneceram resultados diferentes por classe, tendo o classificador plano exibido um comportamento mais adequado em categorias que tendiam a ser mais difíceis de caracterizar nos níveis superiores, ou seja, naqueles que representam atividades menos específicas. Apesar disso, nas duas abordagens o resultado ao se considerar todas as classes foi próximo
  • Imprenta:
  • Data da defesa: 13.05.2022
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2022.tde-04072022-160436 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SILVA, Ana Gabriela Faria da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/. Acesso em: 10 jan. 2026.
    • APA

      Silva, A. G. F. da. (2022). Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
    • NLM

      Silva AGF da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas [Internet]. 2022 ;[citado 2026 jan. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
    • Vancouver

      Silva AGF da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas [Internet]. 2022 ;[citado 2026 jan. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026