Exportar registro bibliográfico

Comparing vector document representation methods for authorship identification (2021)

  • Authors:
  • Autor USP: QUINTANILLA, PAMELA ROSY REVUELTA - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • Subjects: APRENDIZADO COMPUTACIONAL; REDES COMPLEXAS
  • Keywords: Aprendizado máquina; Atribuição de autoria; Authorship attribution; Classificação de texto; Complex networks; Extração de características; Feature extraction; Graph embedding; Machine Learning; Text classification; Word embeddings
  • Agências de fomento:
  • Language: Inglês
  • Abstract: Com o passar dos anos, as informações disponíveis na mídia online tiveram um grande aumento. Nesse sentido, ganhou importância a automatização de processamento de linguagens natural para grandes quantidades de informação, por exemplo, a tarefa de classificação de textos. Esta tarefa pode ser usada para identificar o autor, atribução de autoria, mas precisa de técnicas de Aprendizado Máquina para identificá-lo, o que têm dado bons resultados no PLN. Além disso, Aprendizado Máquina recebe o vetor característico dos textos os quais são extraídos utilizando métodos de representação vetorial de documentos. Os métodos propostos para esta investigação estão agrupados em três abordagens: i) métodos baseados em modelos de espaço vetorial, ii) métodos baseados em Word embeddings, e iii) métodos baseados em Graph embeddings, para esta abordagem, primeiro modelamos os textos como grafos. Por outro lado, nem todos os métodos são usados para diferentes idiomas, porque pode ter diferentes eficiências, dependendo do idioma dos textos analisados. Então, o objetivo desta pesquisa é comparar vários desses métodos utilizando textos literários em inglês e espanhol. Desta forma, nós analisamos se os métodos são eficientes para representar várias linguagens ou seu desempenho depende das características de cada linguagem. Os resultados mostraram que os métodos de Graph embeddings obtiveram bom desempenho para as duas linguagens, sendo que para o inglês alcançaram uma taxa de sucesso bastanteelevada. Por outro lado, os demais métodos obtiveram bom desempenho para o inglês, porém os resultados para o espanhol não foram os ideais. Acreditamos que os resultados em espanhol foram piores devido à complexidade morfológica, lexical e sintática que este idioma apresenta em comparação ao inglês. Por esse motivo, foram comparadas diferentes abordagens para a representação matemática de textos que procuram abranger os diferentes aspectos de uma língua
  • Imprenta:
  • Data da defesa: 05.04.2021
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      REVUELTA QUINTANILLA, Pamela Rosy. Comparing vector document representation methods for authorship identification. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/. Acesso em: 19 set. 2024.
    • APA

      Revuelta Quintanilla, P. R. (2021). Comparing vector document representation methods for authorship identification (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/
    • NLM

      Revuelta Quintanilla PR. Comparing vector document representation methods for authorship identification [Internet]. 2021 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/
    • Vancouver

      Revuelta Quintanilla PR. Comparing vector document representation methods for authorship identification [Internet]. 2021 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024