Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas

Silva, Ana Gabriela Faria da; Leonardi, Florencia Graciela

Tese

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (2022)

Authors:
- Silva, Ana Gabriela Faria da
- Leonardi, Florencia Graciela (Orientador)
Autor USP: SILVA, ANA GABRIELA FARIA DA - IME
Unidade: IME
Sigla do Departamento: MAE
DOI: 10.11606/D.45.2022.tde-04072022-160436
Subjects: MINERAÇÃO DE DADOS; APRENDIZADO COMPUTACIONAL
Keywords: Aprendizado automático; Classificação de atividades econômicas; Classificação hierárquica; Classification of economic activities; Hierarchical classification; Machine learning; Mineração de dados textuais; Text mining; Web scraping
Language: Português
Abstract: O papel das estatísticas é produzir informações que busquem retratar a realidade. Para que isso seja possível, se faz necessário o estabelecimento de padrões. As estatísticas econômicas no Brasil, seguindo diretrizes internacionais, adotam a Classificação Nacional de Atividades Econômicas (CNAE) para caracterizar as atividades desenvolvidas pelas empresas. A CNAE possui uma estrutura hierárquica onde quanto maior o número de dígitos mais específica é a atividade descrita. Este trabalho objetiva avaliar o uso do aprendizado supervisionado, no âmbito da mineração de dados textuais, para a obtenção da CNAE que corresponde à atividade econômica principal das empresas. Para tanto, são utilizados textos como variáveis preditoras, obtidos via web scraping, de páginas da web e o oriundo da própria URL da companhia. Tanto a URL quanto a variável resposta, a CNAE, têm como origem as Pesquisas Estruturais por Empresa, do Instituto Brasileiro de Geografia e Estatística (IBGE). Por conta da estrutura hierárquica da classificação são testadas duas abordagens para o ajuste dos modelos. A primeira, denominada classificação plana, tem por objetivo obter diretamente a classe mais específica. Já a segunda, enquadrada na categoria de classificação hierárquica, consiste na construção de diversos classificadores locais independentes para cada nível da hierarquia de classes. Nos dois casos, dentre os algoritmos testados, a Regressão Logística apresentou o melhor desempenho, se mostrando apta paraextrair padrões capazes de identificar a classificação. As duas abordagens forneceram resultados diferentes por classe, tendo o classificador plano exibido um comportamento mais adequado em categorias que tendiam a ser mais difíceis de caracterizar nos níveis superiores, ou seja, naqueles que representam atividades menos específicas. Apesar disso, nas duas abordagens o resultado ao se considerar todas as classes foi próximo
Imprenta:
- Publisher place: São Paulo
- Date published: 2022
Data da defesa: 13.05.2022

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

SILVA, Ana Gabriela Faria da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/. Acesso em: 26 mar. 2026.
APA

Silva, A. G. F. da. (2022). Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
NLM

Silva AGF da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas [Internet]. 2022 ;[citado 2026 mar. 26 ] Available from: https://teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
Vancouver

Silva AGF da. Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas [Internet]. 2022 ;[citado 2026 mar. 26 ] Available from: https://teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/

ReP

Exportar registro bibliográfico

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: