Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente

Catae, Fabricio Shigueru; Rocha, Ricardo Luis de Azevedo da

Tese

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente (2013)

Authors:
- Catae, Fabricio Shigueru
- Rocha, Ricardo Luis de Azevedo da (Orientador)
Autor USP: CATAE, FABRICIO SHIGUERU - EP
Unidade: EP
Sigla do Departamento: PCS
Subjects: ALGORITMOS; RECONHECIMENTO DE PADRÕES
Language: Português
Abstract: A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões.
Imprenta:
- Publisher place: São Paulo
- Date published: 2013
Data da defesa: 08.01.2013

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

CATAE, Fabricio Shigueru. Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente. 2013. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2013. Disponível em: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/. Acesso em: 05 out. 2024.
APA

Catae, F. S. (2013). Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/
NLM

Catae FS. Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente [Internet]. 2013 ;[citado 2024 out. 05 ] Available from: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/
Vancouver

Catae FS. Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente [Internet]. 2013 ;[citado 2024 out. 05 ] Available from: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-06072014-225124/

ReP

Exportar registro bibliográfico

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente (2013)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente (2013)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: