O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa (2009)
- Authors:
- Autor USP: CONRADO, MERLEY DA SILVA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: LINGUÍSTICA COMPUTACIONAL; MATEMÁTICA DA COMPUTAÇÃO; MINERAÇÃO DE DADOS (TERMINOLOGIA;EXTRAÇÃO)
- Language: Português
- Abstract: A extração de termos em coleções textuais, que é uma atividade da etapa de Pré-Processamento da Mineração de Textos, pode ser empregada para diversos fins nos processos de extração de conhecimento. Esses termos devem ser cuidadosamente extraídos, uma vez que os resultados de todo o processo dependerão, em grande parte, da "qualidade" dos termos obtidos. A "qualidade" dos termos, neste trabalho, abrange tanto a representatividade dos termos no domínio em questão como sua compreensibilidade. Tendo em vista sua importância, neste trabalho, avaliou-se o efeito do uso de diferentes técnicas de simplificação de termos na compreensibilidade e representatividade dos termos em coleções textuais na Língua Portuguesa. Os termos foram extraídos seguindo os passos da metodologia apresentada neste trabalho e as técnicas utilizadas durante essa atividade de extração foram a radicalização, lematização e substantivação. Para apoiar tal metodologia, foi desenvolvida uma ferramenta, a ExtraT (Ferramenta para Extração de Termos). Visando garantir a "qualidade" dos termos extraídos, os mesmos sô avaliados objetiva e subjetivamente. As avaliações subjetivas, ou seja, com o auxílio de especialistas do domínio em questão, abrangem a representatividade dos termos em seus respectivos documentos, a compreensibilidade dos termos obtidos ao utilizar cada técnica e a preferência geral subjetiva dos especialistas em cada técnica. As avaliações objetivas, que são auxiliadas por umaferramenta desenvolvida (a TaxEM - Taxonomia em XML da Embrapa), levam em consideração a quantidade de termos extraídos por cada técnica, além de abranger também a representatividade dos termos extraídos a partir de cada técnica em relação aos seus respectivos documentos. Essa avaliação objetiva da representatividade dos termos utiliza como suporte a medida CTW (Context Term Weight). Oito coleções de textos reais ) do domínio de agronegócio foram utilizadas na avaliaçao experimental. Como resultado foram indicadas algumas das características positivas e negativas da utilização das técnicas de simplificação de termos, mostrando que a escolha pelo uso de alguma dessas técnicas para o domínio em questão depende do objetivo principal pré-estabelecido, que pode ser desde a necessidade de se ter termos compreensíveis para o usuário até a necessidade de se trabalhar com uma menor quantidade de termos
- Imprenta:
- Publisher place: São Carlos
- Date published: 2009
- Data da defesa: 10.09.2009
-
ABNT
CONRADO, Merley da Silva. O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa. 2009. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2009. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19012010-112047/. Acesso em: 28 dez. 2025. -
APA
Conrado, M. da S. (2009). O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19012010-112047/ -
NLM
Conrado M da S. O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa [Internet]. 2009 ;[citado 2025 dez. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19012010-112047/ -
Vancouver
Conrado M da S. O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa [Internet]. 2009 ;[citado 2025 dez. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19012010-112047/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
