Data mining in large sets of complex data (2011)
- Authors:
- Autor USP: CORDEIRO, ROBSON LEONARDO FERREIRA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SSC
- Subjects: MINERAÇÃO DE DADOS; BANCO DE DADOS; TEMPO-REAL
- Keywords: Agrupamento de correlação; Correlation clustering; Dados de média à alta dimensionalidade; Labeling and summarization; MapReduce; MapReduce; Mineração de dados em escala de terabytes; Moderante-to-high dimensionality data; Rotulação e sumarização; Terabyte-scale data mining
- Language: Inglês
- Abstract: O crescimento em quantidade e complexidade dos dados armazenados nas organizações torna a extração de conhecimento utilizando técnicas de mineração uma tarefa ao mesmo tempo fundamental para aproveitar bem esses dados na tomada de decisões estratégicas e de alto custo computacional. O custo vem da necessidade de se explorar uma grande quantidade de casos de estudo, em diferentes combinações, para se obter o conhecimento desejado. Tradicionalmente, os dados a explorar são representados como atributos numéricos ou categóricos em uma tabela, que descreve em cada tupla um caso de teste do conjunto sob análise. Embora as mesmas tarefas desenvolvidas para dados tradicionais sejam também necessárias para dados mais complexos, como imagens, grafos, áudio e textos longos, a complexidade das análises e o custo computacional envolvidos aumentam significativamente, inviabilizando a maioria das técnicas de análise atuais quando aplicadas a grandes quantidades desses dados complexos. Assim, técnicas de mineração especiais devem ser desenvolvidas. Este Trabalho de Doutorado visa a criação de novas técnicas de mineração para grandes bases de dados complexos. Especificamente, foram desenvolvidas duas novas técnicas de agrupamento e uma nova técnica de rotulação e sumarização que são rápidas, escaláveis e bem adequadas à análise de grandes bases de dados complexos. As técnicas propostas foram avaliadas para a análise de bases de dados reais, em escala de Terabytes de dados, contendo atébilhões de objetos complexos, e elas sempre apresentaram resultados de alta qualidade, sendo em quase todos os casos pelo menos uma ordem de magnitude mais rápidas do que os trabalhos relacionados mais eficientes. Os dados reais utilizados vêm das seguintes aplicações: diagnóstico automático de câncer de mama, análise de imagens de satélites, e mineração de grafos aplicada a um grande grafo da web coletado pelo Yahoo! e também a um grafo com todos os usuários da rede social Twitter e suas conexões. Tais resultados indicam que nossos algoritmos permitem a criação de aplicações em tempo real que, potencialmente, não poderiam ser desenvolvidas sem a existência deste Trabalho de Doutorado, como por exemplo, um sistema em escala global para o auxílio ao diagnóstico médico em tempo real, ou um sistema para a busca por áreas de desmatamento na Floresta Amazônica em tempo real
- Imprenta:
- Publisher place: São Carlos
- Date published: 2011
- Data da defesa: 29.08.2011
-
ABNT
CORDEIRO, Robson Leonardo Ferreira. Data mining in large sets of complex data. 2011. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2011. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-083653/. Acesso em: 27 dez. 2025. -
APA
Cordeiro, R. L. F. (2011). Data mining in large sets of complex data (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-083653/ -
NLM
Cordeiro RLF. Data mining in large sets of complex data [Internet]. 2011 ;[citado 2025 dez. 27 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-083653/ -
Vancouver
Cordeiro RLF. Data mining in large sets of complex data [Internet]. 2011 ;[citado 2025 dez. 27 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-083653/ - 'HALITE IND.DS': agrupamento de dados em subespaços de séries temporais multidimensionais
- 'HALITE IND. DS': fast and scalable subspace clustering for multidimensional data streams
- The similarity-aware relational division database operator
- A new division operator to handle complex objects in very large relational datasets
- Fast and scalable outlier detection with metric access methods
- The similarity-aware relational division database operator with case studies in agriculture and genetics
- D.MCA: outlier detection with explicit micro-cluster assignments
- Fast and scalable relational division on database systems
- On the support of the similarity-aware division operator in a commercial RDBMS
- Detecting influencers in very large social networks of games
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
