Exportar registro bibliográfico

On the evaluation of clustering results: measures, ensembles, and gene expression data analysis (2015)

  • Authors:
  • Autor USP: JASKOWIAK, PABLO ANDRETTA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: MINERAÇÃO DE DADOS; APRENDIZADO COMPUTACIONAL; DESCOBERTA DE CONHECIMENTO; EXPRESSÃO GÊNICA
  • Keywords: Agrupamento de dados; Clustering; Clustering validation; Validação de agrupamentos
  • Language: Inglês
  • Abstract: Técnicas de agrupamento desempenham um papel fundamental na análise exploratória de dados. Seu objetivo é a organização de objetos em um conjunto finito de categorias, i.e., grupos (clusters), na expectativa de que relações significativas entre objetos resultem do processo. Nem todos resultados de agrupamento são relevantes, entretanto. De fato, a vasta maioria dos algoritmos de agrupamento existentes produzirá um resultado (partição), mesmo em casos para os quais não existe uma estrutura real de grupos nos dados. Se grupos de fato existem, a determinação do melhor conjunto de parâmetros para estes algoritmos ainda é necessária, a fim de evitar a utilização de resultados espúrios. Tal determinação é usualmente feita por meio de critérios de validação, os quais avaliam os resultados de agrupamento de forma quantitativa. A avaliação/validação de resultados de agrupamentos é o foco desta tese. Em um contexto geral, critérios de validação relativos e a combinação dos mesmos (ensembles) são propostas. No que tange critérios, propõe-se o uso da área sob a curva (AUC Area Under the Curve) proveniente de avaliações ROC (Receiver Operating Characteristics) como um critério de validação relativo no contexto de agrupamento. Além de uma avaliação empírica da AUC, são exploradas algumas de suas propriedades teóricas, bem como a sua relação com outro critério relativo existente, conhecido como Gamma. Ainda com relação à critérios, um índice relativo para a validação de resultados deagrupamentos baseados em densidade, proposto com a participação do autor desta tese, é revisado. No que diz respeito à combinação de critérios, mostra-se que: (i) combinações baseadas em uma seleção arbitrária de índices possuem aplicação prática limitada; e (ii) com o uso de heurísticas para seleção de membros da combinação, melhores resultados podem ser obtidos. Finalmente, considera-se a avaliação/validação no contexto de dados de expressão gênica. Neste caso particular estuda-se o uso de informação da Gene Ontology, na forma de similaridades semânticas, na avaliação de medidas de dissimilaridade e resultados de agrupamentos de genes
  • Imprenta:
  • Data da defesa: 27.11.2015
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      JASKOWIAK, Pablo Andretta. On the evaluation of clustering results: measures, ensembles, and gene expression data analysis. 2015. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2015. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-23032016-111454/. Acesso em: 07 maio 2026.
    • APA

      Jaskowiak, P. A. (2015). On the evaluation of clustering results: measures, ensembles, and gene expression data analysis (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-23032016-111454/
    • NLM

      Jaskowiak PA. On the evaluation of clustering results: measures, ensembles, and gene expression data analysis [Internet]. 2015 ;[citado 2026 maio 07 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-23032016-111454/
    • Vancouver

      Jaskowiak PA. On the evaluation of clustering results: measures, ensembles, and gene expression data analysis [Internet]. 2015 ;[citado 2026 maio 07 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-23032016-111454/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026