Análise de textos por meio de processos estocásticos na representação word2vec (2021)
- Authors:
- Autor USP: MASSONI, GABRIELA - Interinstitucional de Pós-Graduação em Estatística
- Unidade: Interinstitucional de Pós-Graduação em Estatística
- Sigla do Departamento: SME
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; PROCESSOS ESTOCÁSTICOS; PROCESSAMENTO DE DADOS; ANÁLISE DE SÉRIES TEMPORAIS
- Keywords: Modelos de predição; Natural language processing; Prediction models; Representação vetorial de palavras; Stochastic process; Word vector representation
- Agências de fomento:
- Language: Português
- Abstract: Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem cronológica das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 03.03.2021
-
ABNT
MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/. Acesso em: 22 jan. 2026. -
APA
Massoni, G. (2021). Análise de textos por meio de processos estocásticos na representação word2vec (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/ -
NLM
Massoni G. Análise de textos por meio de processos estocásticos na representação word2vec [Internet]. 2021 ;[citado 2026 jan. 22 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/ -
Vancouver
Massoni G. Análise de textos por meio de processos estocásticos na representação word2vec [Internet]. 2021 ;[citado 2026 jan. 22 ] Available from: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
