Extração automática de termos simples baseada em aprendizado de máquina

Laguna, Merley da Silva Conrado; Pardo, Thiago Alexandre Salgueiro; Rezende, Solange Oliveira

Tese

Extração automática de termos simples baseada em aprendizado de máquina (2014)

Authors:
Autor USP: LAGUNA, MERLEY DA SILVA CONRADO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: APRENDIZADO COMPUTACIONAL; LINGUÍSTICA COMPUTACIONAL; MINERAÇÃO DE DADOS; LINGUAGEM NATURAL; ANÁLISE DE TEXTO
Keywords: Aprendizado de máquina; Automatic term extraction; Conhecimento linguístico, estatístico e híbrido; Extração automática de termos; Linguistic; Machine learning; statistical; statistical and hybrid
Language: Português
Abstract: A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos, visando atenuar os problemas inerentes a cada um deles. Considerando as características dos métodos de extração de termos, nesta tese, foram investigados métodos estatísticos, formas de obtenção de conhecimento linguístico e métodos híbridos para a extração de termossimples - aqueles constituídos de somente um radical, com ou sem afixos - na língua portuguesa do Brasil. Quatro medidas estatísticas (tvq, tv, tc e comGram), originalmente utilizadas em outras tarefas, foram avaliadas na extração de termos simples, sendo que duas delas (tvq e tv) foram consideradas relevantes para essa tarefa. Quatro novas medidas híbridas (n_subst., n_adj., n_po e n_verbo) foram propostas, sendo que três delas (n_subst,. n_adj., e n_po) auxiliaram na extração de termos. Normalmente os métodos de extração de termos selecionam candidatos a termos com base em algum conhecimento linguístico. Depois disso, eles aplicam a esses candidatos medidas ou combinação de medidas (e/ou heurísticas) para gerar um ranking com tais candidatos. Quanto mais ao topo desse ranking os candidatos estão, maior a chance de que eles sejam termos. A escolha do liminar a ser considerado nesse ranking é feita, em geral de forma manual ou semiautomática por especialistas do domínio e/ou terminólogos. Automatizar a forma de escolha dos candidatos a termos é a primeira motivação da extração de termos realizada nesta pesquisa. A segunda motivação desta pesquisa é minimizar o elevado número de candidatos a termos presente na extração de termos. Esse alto número, causado pela grande quantidade de palavras contidas em um corpus, pode aumentar a complexidade de tempo e os recursos computacionais utilizados para se extrair os termos. A terceira motivação considerada nesta pesquisa émelhorar o estado da arte da extração automática de termos simples da língua portuguesa do Brasil, uma vez que os resultados dessa extração (medida F = 16%) ainda são inferiores se comparados com a extração de termos em línguas como a inglesa (medida F = 92%) e a espanhola (medida F = 68%). Considerando essas motivações, nesta tese, foi proposto o método MATE-ML (Automatic Term Extraction based on Machine Learning) que visaextrair automaticamente termos utilizando técnicas da área de aprendizado de máquina. No método MATE-ML, é sugerido o uso de filtros para reduzir o elevado número de candidatos a termos durante a extração de termos sem prejudicar a representação do domínio em questão. Com isso, acredita-se que os extratores de termos podem gerar listas menores de candidatos extraídos, demandando, assim , menos tempo dos especialistas para avaliar esses candidatos. Ainda, o método MATE-ML foi instanciado em duas abordagens: (i) ILATE (Inductive Learning for Automatic Term Extraction), que utiliza a classificação supervisionada indutiva para rotular os candidatos a termos em termos e não termos, e (ii) TLATE (Transductive Learning for Automatic Term Extraction), que faz uso da classificação semissupervisionada transdutiva para propagar os rótulos dos candidatos rotulados para os não rotulados. A aplicação do aprendizado transdutivo na extração de termos e a aplicação ao mesmo tempo de um conjunto rico de características de candidatos pertencentes a diferentes níveis deconhecimento - linguístico, estatístico e híbrido também são consideradas contribuições desta tese. Nesta tese, são discutidas as vantagens e limitações dessas duas abordagens propostas, ILATE e TLATE. Ressalta-se que o uso dessas abordagens alcança geralmente resultados mais altos de precisão (os melhores casos alcançam mais de 81%), altos resultados de cobertura (os melhores casos atingem mai de 87%) e bons valores de medida F (máximo de 41%) em relação aos métodos e medidas comparados nas avaliações experimentais realizadas considerando três corpora de diferentes domínios na língua portuguesa do Brasil
Imprenta:
- Publisher place: São Carlos
- Date published: 2014
Data da defesa: 06.05.2014

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LAGUNA, Merley da Silva Conrado. Extração automática de termos simples baseada em aprendizado de máquina. 2014. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2014. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/. Acesso em: 01 abr. 2026.
APA

Laguna, M. da S. C. (2014). Extração automática de termos simples baseada em aprendizado de máquina (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/
NLM

Laguna M da SC. Extração automática de termos simples baseada em aprendizado de máquina [Internet]. 2014 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/
Vancouver

Laguna M da SC. Extração automática de termos simples baseada em aprendizado de máquina [Internet]. 2014 ;[citado 2026 abr. 01 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-11082014-103430/

ReP

Exportar registro bibliográfico

Extração automática de termos simples baseada em aprendizado de máquina (2014)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Extração automática de termos simples baseada em aprendizado de máquina (2014)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: