Comparing vector document representation methods for authorship identification

Revuelta Quintanilla, Pamela Rosy; Silva, Flávio Soares Corrêa da

Tese

Comparing vector document representation methods for authorship identification (2021)

Authors:
- Revuelta Quintanilla, Pamela Rosy
- Silva, Flávio Soares Corrêa da (Orientador)
Autor USP: QUINTANILLA, PAMELA ROSY REVUELTA - IME
Unidade: IME
Sigla do Departamento: MAC
Subjects: APRENDIZADO COMPUTACIONAL; REDES COMPLEXAS
Keywords: Aprendizado máquina; Atribuição de autoria; Authorship attribution; Classificação de texto; Complex networks; Extração de características; Feature extraction; Graph embedding; Machine Learning; Text classification; Word embeddings
Agências de fomento:
- Financiamento CAPES
Language: Inglês
Abstract: Com o passar dos anos, as informações disponíveis na mídia online tiveram um grande aumento. Nesse sentido, ganhou importância a automatização de processamento de linguagens natural para grandes quantidades de informação, por exemplo, a tarefa de classificação de textos. Esta tarefa pode ser usada para identificar o autor, atribução de autoria, mas precisa de técnicas de Aprendizado Máquina para identificá-lo, o que têm dado bons resultados no PLN. Além disso, Aprendizado Máquina recebe o vetor característico dos textos os quais são extraídos utilizando métodos de representação vetorial de documentos. Os métodos propostos para esta investigação estão agrupados em três abordagens: i) métodos baseados em modelos de espaço vetorial, ii) métodos baseados em Word embeddings, e iii) métodos baseados em Graph embeddings, para esta abordagem, primeiro modelamos os textos como grafos. Por outro lado, nem todos os métodos são usados para diferentes idiomas, porque pode ter diferentes eficiências, dependendo do idioma dos textos analisados. Então, o objetivo desta pesquisa é comparar vários desses métodos utilizando textos literários em inglês e espanhol. Desta forma, nós analisamos se os métodos são eficientes para representar várias linguagens ou seu desempenho depende das características de cada linguagem. Os resultados mostraram que os métodos de Graph embeddings obtiveram bom desempenho para as duas linguagens, sendo que para o inglês alcançaram uma taxa de sucesso bastanteelevada. Por outro lado, os demais métodos obtiveram bom desempenho para o inglês, porém os resultados para o espanhol não foram os ideais. Acreditamos que os resultados em espanhol foram piores devido à complexidade morfológica, lexical e sintática que este idioma apresenta em comparação ao inglês. Por esse motivo, foram comparadas diferentes abordagens para a representação matemática de textos que procuram abranger os diferentes aspectos de uma língua
Imprenta:
- Publisher place: São Paulo
- Date published: 2021
Data da defesa: 05.04.2021

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

REVUELTA QUINTANILLA, Pamela Rosy. Comparing vector document representation methods for authorship identification. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/. Acesso em: 21 fev. 2026.
APA

Revuelta Quintanilla, P. R. (2021). Comparing vector document representation methods for authorship identification (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/
NLM

Revuelta Quintanilla PR. Comparing vector document representation methods for authorship identification [Internet]. 2021 ;[citado 2026 fev. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/
Vancouver

Revuelta Quintanilla PR. Comparing vector document representation methods for authorship identification [Internet]. 2021 ;[citado 2026 fev. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05052021-040638/

ReP

Exportar registro bibliográfico

Comparing vector document representation methods for authorship identification (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Comparing vector document representation methods for authorship identification (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: