A wikification prediction model based on the combination of latent, dyadic and monadic features (2016)
- Authors:
- Autor USP: FERREIRA, RAONI SIMÕES - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: APRENDIZADO COMPUTACIONAL; WEB SEMÂNTICA; INTERAÇÃO HOMEM-MÁQUINA; SISTEMAS MULTIMÍDIA
- Keywords: Fatoração matricial; Link prediction; Machine learning; Matrix factorization; Previsão de links; Wikificação; Wikification; Wikipedia; Wikipédia; Wikipedia
- Language: Inglês
- Abstract: Atualmente, informações de referência são disponibilizadas através de repositórios de documentos semanticamente ligados, criados de forma colaborativa e com acesso livre na Web. Entre os muitos problemas enfrentados pelos provedores de conteúdo desses repositórios, destaca-se a Wikification, isto é, a inclusão de links nos artigos desses repositórios. Esses links possibilitam a navegação pelos artigos e permitem ao usuário um aprofundamento semântico do conteúdo. A Wikification é uma tarefa complexa, uma vez que o crescimento contínuo de tais repositórios resulta em um esforço cada vez maior dos editores. Como consequência, eles têm seu foco desviado da criação de conteúdo, que deveria ser o seu principal objetivo. Isso tem motivado o desenvolvimento de ferramentas de Wikification automática que, tradicionalmente, abordam dois problemas distintos: (a) como identificar que palavras (ou frases) em um artigo deveriam ser selecionados como texto de âncora e (b) como determinar para que artigos o link, associado ao texto de âncora, deveria apontar. A maioria dos métodos na literatura que abordam esses problemas usam aprendizado de máquina. Eles tentam capturar, através de atributos estatísticos, características dos conceitos e seus links. Embora essas estratégias tratam o repositório como um grafo de conceitos, normalmente elas pouco exploram a estrutura topológica do grafo, uma vez que se limitam a descrevá-lo por meio de atributos estatísticos dos links, projetados porespecialistas humanos. Embora tais métodos sejam eficazes, novos modelos poderiam tirar mais proveito da topologia se a descrevessem por meio de abordagens orientados a dados, tais como a fatoração matricial. De fato, essa abordagem tem sido aplicada com sucesso em outros domínios como recomendação de filmes. Neste trabalho, propomos um modelo de previsão para Wikification que combina a força dos previsores tradicionais baseados em atributos estatísticos, projetados por seres humanos, com um componente de previsão latente, que modela a topologia do grafo de conceitos usando fatoração matricial. Ao comparar nosso modelo com o estado-da-arte em Wikification, usando uma amostra de artigos Wikipédia, observamos um ganho de até 13% em F1. Além disso, fornecemos uma análise detalhada do desempenho do modelo enfatizando a importância do componente de previsão latente e dos atributos derivados dos links entre os conceitos. Também analisamos o impacto de conceitos ambíguos, o que permite concluir que nosso modelo se porta bem mesmo diante de ambiguidade, apesar de não tratar explicitamente este problema. Ainda realizamos um estudo sobre o impacto da seleção das amostras de treino conforme a qualidade dos seus conteúdos, uma informação disponível em alguns repositórios, tais como a Wikipédia. Nós observamos que o treino com documentos de alta qualidade melhora a precisão do método, minimizando o uso de links desnecessários
- Imprenta:
- Publisher place: São Carlos
- Date published: 2016
- Data da defesa: 25.04.2016
-
ABNT
FERREIRA, Raoni Simões. A wikification prediction model based on the combination of latent, dyadic and monadic features. 2016. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2016. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-29112016-164654/. Acesso em: 12 abr. 2026. -
APA
Ferreira, R. S. (2016). A wikification prediction model based on the combination of latent, dyadic and monadic features (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-29112016-164654/ -
NLM
Ferreira RS. A wikification prediction model based on the combination of latent, dyadic and monadic features [Internet]. 2016 ;[citado 2026 abr. 12 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-29112016-164654/ -
Vancouver
Ferreira RS. A wikification prediction model based on the combination of latent, dyadic and monadic features [Internet]. 2016 ;[citado 2026 abr. 12 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-29112016-164654/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
