Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas (2022)
- Authors:
- Autor USP: CANTÃO, ADRIANO HENRIQUE - FFCLRP
- Unidade: FFCLRP
- Sigla do Departamento: 595
- DOI: 10.11606/D.59.2022.tde-05122022-102337
- Subjects: MÉTRICAS DE SOFTWARE; REDES COMPLEXAS; COMPUTAÇÃO APLICADA
- Keywords: Centrality measures; Complex networks; Feature ranking; Métricas de centralidade; Random forests; Ranqueamento de atributos
- Agências de fomento:
- Language: Português
- Abstract: O volume de dados disponíveis aumentou rapidamente nos últimos anos e, com isso, os datasets geralmente acabam tendo muitos atributos irrelevantes que podem dificultar a compreensão humana e até levar a modelos de aprendizado de máquina ruins. É possível lidar com esse problema ordenando os atributos de acordo com suas relevâncias e, se desejado, pode ser aplicado um valor de corte ou a estratégia dos top-k para reduzir o número de atributos, mantendo apenas os mais relevantes. Esta pesquisa aborda esse problema e propõe um novo método que emprega árvores de uma Random Forest para transformar um dataset em uma rede complexa na qual métricas de centralidade são aplicadas para ranquear os atributos. O processo representa cada árvore como um grafo, onde todos os atributos na Árvore de Decisão são vértices e as ligações entre os nós (pai → filho) da árvore são representados por uma aresta ponderada entre os dois respectivos vértices. A união de todos os grafos de árvores individuais leva à rede complexa. Experimentos foram realizados em 97 datasets de classificação e regressão rotulados, com variação nos níveis de ruído dos atributos e dos exemplos. Os resultados mostram que, para redes complexas geradas a partir de Random Forests, as métricas de peso de aresta unitário e out-of-bag apresentaram melhores resultados para datasets de classificação e regressão, respectivamente; as métricas de centralidade tiveram melhor desempenho em redes não orientadas, em geral. É possível concluir que a centralidade do autovetor e a importância dos atributos da Random Forest têm desempenho equivalente. Em outras palavras, não houve diferença estatisticamente significativa entre eles em todas, exceto em uma situação (com 40% de ruído nos exemplos para datasets de regressão), com nível de confiança de 95%
- Imprenta:
- Publisher place: Ribeirão Preto
- Date published: 2022
- Data da defesa: 13.09.2022
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
CANTÃO, Adriano Henrique. Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas. 2022. Dissertação (Mestrado) – Universidade de São Paulo, Ribeirão Preto, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/59/59143/tde-05122022-102337/. Acesso em: 09 abr. 2026. -
APA
Cantão, A. H. (2022). Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas (Dissertação (Mestrado). Universidade de São Paulo, Ribeirão Preto. Recuperado de https://teses.usp.br/teses/disponiveis/59/59143/tde-05122022-102337/ -
NLM
Cantão AH. Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas [Internet]. 2022 ;[citado 2026 abr. 09 ] Available from: https://teses.usp.br/teses/disponiveis/59/59143/tde-05122022-102337/ -
Vancouver
Cantão AH. Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas [Internet]. 2022 ;[citado 2026 abr. 09 ] Available from: https://teses.usp.br/teses/disponiveis/59/59143/tde-05122022-102337/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas