Embedding Propagation over Heterogeneous Information Networks (2022)
- Authors:
- Autor USP: CARMO, PAULO RICARDO VIVIURKA DO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2022.tde-11012023-172819
- Subjects: APRENDIZADO COMPUTACIONAL; REDES DE INFORMAÇÃO; MINERAÇÃO DE DADOS; INTELIGÊNCIA ARTIFICIAL
- Keywords: Embedding propagation; Heterogeneous information network; Network embedding; Propagação de embeddings; Redes heterogêneas
- Agências de fomento:
- Language: Inglês
- Abstract: Dados textuais precisam ser limpos e transformados para representações estruturadas antes de serem utilizados em cenários de aprendizado de máquina. Recentemente, embeddings estão sendo utilizadas para representar dados textuais. Por exemplo, o modelo de linguagem neurais pré-treinado BERT podem posicionar palavras, sentenças ou textos em embeddings dentro de um espaço vetorial de dimensão fixa. Outra forma de modelar dados textuais é a utilização de redes heterogêneas de informação. Essa estrutura permite a modelagem de relações complexas por meio de nós e conexões de dados textuais de diferentes domínios com conexões explícitas. Por outro lado, redes de informação possuem seus próprios desafios quanto a utilização direta em métodos tradicionais de aprendizado de máquina. Métodos de network embedding podem ser utilizados para gerarem embeddings de nós com relação a topologia da rede, tipos de relações e até mesmo rótulos. Entretanto esses métodos normalmente exploram apenas a topologia, e em alguns casos, metadados dos relacionamentos em uma rede. Métodos de propagação de embeddings foram desenvolvidos com o objetivo de distribuir vetores de características gerados a partir de outros modelos. Para redes de informação que possuem alguns nós com dados textuais modelos de linguagem pré-treinados podem ser propagados respeitando a topologia e outros dados das redes para a geração de uma embedding final. Esta dissertação de mestrado apresenta um método de propagação deembeddings para redes heterogêneas de informação que representam dados textuais. O método proposto propaga as embeddings de nós textuais por toda a rede por meio de uma função de regularização. Três artigos de caso de uso que avaliam e validam o método também são apresentados: (1) Embedding Propagation over Heterogeneous Event Networks mostra o desempenho do método proposto para análise de eventos onde sua performance supera a literatura por mais de 3% MRR@k em todos os cenários; (2) TRENCHANT: TRENd prediCtion on Heterogeneous informAtion NeTworks que é uma extensão de Commodities trend link prediction on heterogeneous information networks onde o método proposto é avaliado em relação a métodos de network embedding da literatura na tarefa de predição de preços de commodities e atinge performance superior a literatura em alguns cenários, onde obteve 8% melhor F1 predizendo trends de preços semanais da soja; e (3) NatUKE: Benchmark for Natural Product Knowledge Extraction from Academic Literature que avalia a utilização de métodos de network embedding para a extração de conhecimento não-supervisionada e o método proposto obteve a melhor performance na maior parte dos cenários, sendo que em sua melhor performance obteve 43% mais Hits@1 que a literatura extraindo o tipo de isolamento necessário para obter certa molécula de uma espécia de planta. Esses artigos mostram por meio de experimentos e resultados que o método proposto, ao utilizar uma função de regularização para apropagação, atinge os objetivos de pesquisa de propagar uma embedding inicial de alguns nós com dados textuais para os nós restantes de uma rede heterogênea de informação e permitir a inserção dinâmica de novos nós ao processo de propagação de embeddings.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 07.10.2022
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
CARMO, Paulo Ricardo Viviurka do. Embedding Propagation over Heterogeneous Information Networks. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-11012023-172819/. Acesso em: 31 mar. 2026. -
APA
Carmo, P. R. V. do. (2022). Embedding Propagation over Heterogeneous Information Networks (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-11012023-172819/ -
NLM
Carmo PRV do. Embedding Propagation over Heterogeneous Information Networks [Internet]. 2022 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-11012023-172819/ -
Vancouver
Carmo PRV do. Embedding Propagation over Heterogeneous Information Networks [Internet]. 2022 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-11012023-172819/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
