Exportar registro bibliográfico

eDictor: da plataforma para a nuvem (2015)

  • Authors:
  • Autor USP: VERONESI, LUIZ HENRIQUE LIMA - FFLCH
  • Unidade: FFLCH
  • Sigla do Departamento: FLC
  • Subjects: LINGUÍSTICA DE CORPUS; FILOLOGIA; LINGUÍSTICA COMPUTACIONAL; ARQUITETURA DE INFORMAÇÃO
  • Keywords: Annotated corpus; Arquitetura web; Corpus anotado; Corpus eletrônico; Edição filológica digital; Electronic corpus; Philological digital edition; Web architecture
  • Language: Português
  • Abstract: Neste trabalho, apresentamos uma nova proposta para edição de textos que fazem parte de um corpus eletrônico. Partindo do histórico de desenvolvimento do corpus Tycho Brahe e da ferramenta eDictor, propõe-se a análise de todo o processo de trabalho de criação de um corpus para obter uma forma de organização da informação mais concisa e sem redundâncias, através do uso de um único repositório de informações contendo os dados textuais e morfossintáticos do texto. Esta forma foi atingida através da criação de uma estrutura de dados baseada em unidades mínimas chamadas tokens e blocos de unidades chamados chunks. A relação entre os tokens e os chunks, da forma como considerada neste trabalho, é capaz de guardar a informação de como o texto é estruturado em sua visualização (página, parágrafos, sentenças) e na sua estrutura sintática em árvores. A base de análise é composta por todos os arquivos pertencentes ao catálogo de textos do corpus Tycho Brahe. Através desta análise, foi possível chegar a elementos genéricos que se relacionam, desconstruindo o texto e criando uma relação de pontos de início e fim relativos às palavras (tokens) e não seguindo sua forma linear. A introdução do conceito de orientação a objetos possibilitou a criação de uma relação entre unidades ainda menores que o token, os split tokens que também são tokens, pois herdam as características do elemento mais significativo, o token. O intuito neste trabalho foi buscar uma forma com o menor número possível deatributos buscando diminuir a necessidade de se criar atributos específicos demais ou genéricos de menos. Na busca deste equilíbrio, foi verificada a necessidade de se criar um atributo específico para o chunk sintático, um atributo de nível que indica a distância de um nó da árvore para o nó raiz. Organizada a informação, o acesso a ela se torna mais simples e parte-se para definição da interface do usuário. A tecnologia web disponível permite que elementos sejam posicionados na tela reproduzindo a visualização que ocorre no livro e também permite que haja uma independência entre um e outro elemento. Esta independência é o que permite que a informação trafegue entre o computador do usuário e a central de processamento na nuvem sem que o usuário perceba. O processamento ocorre em background, utilizando tecnologias assíncronas. A semelhança entre as tecnologias html e xml introduziu uma necessidade de adaptação da informação para apresentação ao usuário. A solução apresentada neste trabalho é pensada de forma a atribuir aos tokens informações que indiquem que eles fazem parte de um chunk. Assim, não seriam as palavras que pertencem a uma sentença, mas cada palavra que possuiria um pedaço de informação que a faz pertencente à sentença. Esta forma de se pensar muda a maneira como a informação é exibida
  • Imprenta:
  • Data da defesa: 04.02.2015
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      VERONESI, Luiz Henrique Lima; SOUSA, Maria Clara Paixao de. eDictor: da plataforma para a nuvem. 2015.Universidade de São Paulo, São Paulo, 2015. Disponível em: < http://www.teses.usp.br/teses/disponiveis/8/8142/tde-11062015-140246/ >.
    • APA

      Veronesi, L. H. L., & Sousa, M. C. P. de. (2015). eDictor: da plataforma para a nuvem. Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/8/8142/tde-11062015-140246/
    • NLM

      Veronesi LHL, Sousa MCP de. eDictor: da plataforma para a nuvem [Internet]. 2015 ;Available from: http://www.teses.usp.br/teses/disponiveis/8/8142/tde-11062015-140246/
    • Vancouver

      Veronesi LHL, Sousa MCP de. eDictor: da plataforma para a nuvem [Internet]. 2015 ;Available from: http://www.teses.usp.br/teses/disponiveis/8/8142/tde-11062015-140246/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021