TRIVIR: A Visualization System to Support Document Retrieval with High Recall (2019)
- Authors:
- Autor USP: DIAS, AMANDA GONÇALVES - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2019.tde-11092019-090930
- Subjects: VISUALIZAÇÃO; RECUPERAÇÃO DA INFORMAÇÃO; APRENDIZADO COMPUTACIONAL
- Keywords: Cobertura total; Incompatibilidade de vocabulário; Information retrieval; Machine learning; Total recall; Visualization; Vocabulary mismatch
- Agências de fomento:
- Language: Inglês
- Abstract: No âmbito de recuperação de documentos, há situações em que é preciso assegurar que todos os documentos relevantes para uma dada consulta serão recuperados, de preferência com um esforço humano mínimo. Uma das maneiras de formular este problema de recuperação com alta cobertura é com uma consulta por similaridade: um usuário seleciona um (ou vários) documento(s), e um sistema automático é utilizado para recuperar, de uma coleção, os documentos semelhantes aos apresentados. Uma maneira usual de abordar o problema adota uma estratégia denominada Continuous Active Learning, em que dado o(s) documento(s) de consulta, descrito por seus termos relevantes, um método de aprendizado de máquina retorna e apresenta ao analista, em lotes, os documentos mais provavelmente relevantes, ou mais similares a esse(s). O analista classifica cada documento quanto à relevância, realimentando o algoritmo de aprendizado, o qual pode então refinar suas previsões. Esse processo interativo continua até que alguma condição de qualidade seja satisfeita, o que pode exigir grande esforço do usuário, já que os documentos são oferecidos no formato de listas ranqueadas e devem ser marcados individualmente, e impactar negativamente a convergência do algoritmo de aprendizado. Ademais, uma das dificuldades é a incompatibilidade de vocabulário, quando terminologias distintas são empregadas para descrever conceitos semanticamente relacionados, o que pode prejudicar a identificação dos documentos relevantes. Nestetrabalho propomos TRIVIR, uma visualização interativa alimentada por um motor de recuperação de informação (RI) que implementa o protocolo Continuous Active Learning com o fim de auxiliar RI de alta cobertura. O sistema integra várias representações gráficas para auxiliar o usuário a identificar documentos relevantes em uma coleção. Dados documentos representativos como entrada, usuários podem interagir com as visualizações e marcar documentos como relevantes/não relevantes. Esta informação é utilizada para treinar um algoritmo de aprendizado de máquina que, por sua vez, sugere documentos potencialmente relevantes. TRIVIR oferece duas principais vantagens em relação a outros sistemas de visualização para RI. Primeiro, integra a visualização a um algoritmo de aprendizado de máquina com o qual usários podem interagir para melhorar e acelerar a convergência do algoritmo. Segundo, o sistema trata o problema de incompatibilidade de vocabulário, provendo sinônimos dos termos e o contexto no qual termos são utilizados na coleção. TRIVIR foi desenvolvido como uma interface web flexível podendo ser associado com diferentes técnicas de representação de documentos e projeção multidimensional. Descrevemos dois casos de uso conduzidos com potenciais usuários do TRIVIR. Resultados mostraram que o sistema facilitou a pesquisa por documentos relevantes em grandes coleções, por meio da utilização da informação do contexto no qual os termos ocorrem.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2019
- Data da defesa: 08.07.2019
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
DIAS, Amanda Gonçalves. TRIVIR: A Visualization System to Support Document Retrieval with High Recall. 2019. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2019. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11092019-090930/. Acesso em: 02 jan. 2026. -
APA
Dias, A. G. (2019). TRIVIR: A Visualization System to Support Document Retrieval with High Recall (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11092019-090930/ -
NLM
Dias AG. TRIVIR: A Visualization System to Support Document Retrieval with High Recall [Internet]. 2019 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11092019-090930/ -
Vancouver
Dias AG. TRIVIR: A Visualization System to Support Document Retrieval with High Recall [Internet]. 2019 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11092019-090930/
Informações sobre o DOI: 10.11606/D.55.2019.tde-11092019-090930 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
