Exportar registro bibliográfico


Metrics:

Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda (2019)

  • Authors:
  • Autor USP: TROJAHN, TIAGO HENRIQUE - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • DOI: 10.11606/T.55.2019.tde-28082019-110926
  • Subjects: MULTIMÍDIA; REDES NEURAIS; VÍDEO INTERATIVO
  • Keywords: Aprendizagem profunda; Deep learning; Fusão multimodal; Multimodal fusion; Multimodalidade; Multimodality; Scene segmentation; Segmentação em cenas
  • Language: Português
  • Abstract: A segmentação automática de vídeo em cenas é um problema atual e relevante dado sua aplicação em diversos serviços ligado à área de multimídia. Dentre as diferentes técnicas reportadas pela literatura, as multimodais são consideradas mais promissoras, dado a capacidade de extrair informações de diferentes mídias de maneira potencialmente complementar, possibilitando obter segmentações mais significativas. Ao usar informações de diferentes naturezas, tais técnicas enfrentam dificuldades para modelar e obter uma representação combinada das informações ou com elevado custo ao processar cada fonte de informação individualmente. Encontrar uma combinação adequada de informação que aumente a eficácia da segmentação a um custo computacional relativamente baixo torna-se um desafio. Paralelamente, abordagens baseadas em Aprendizagem Profunda mostraram-se eficazes em uma ampla gama de tarefas, incluindo classificação de imagens e vídeo. Técnicas baseadas em Aprendizagem Profunda, como as Redes Neurais Convolucionais (CNNs), têm alcançado resultados impressionantes em tarefas relacionadas por conseguirem extrair padrões significativos dos dados, incluindo multimodais. Contudo, CNNs não podem aprender adequadamente os relacionamentos entre dados que estão temporalmente distribuídos entre as tomadas de uma mesma cena. Isto pode tornar a rede incapaz de segmentar corretamente cenas cujas características mudam entre tomadas. Por outro lado, Redes Neurais Recorrentes (RNNs) têm sidoempregadas com sucesso em processamento textual, pois foram projetadas para analisar sequências de dados de tamanho variável e podem melhor explorar as relações temporais entre as características de tomadas relacionadas, potencialmente aumentando a eficácia da segmentação em cenas. Há uma carência de métodos de segmentação multimodais que explorem Aprendizagem Profunda. Assim, este trabalho de doutorado propõe um método automático de segmentação de vídeo em cenas que modela o problema de segmentação como um problema de classificação. O método conta com um modelo que combina o potencial de extração de padrões das CNNs com o processamento de sequencias das RNNs. O modelo proposto elimina a dificuldade de modelar representações multimodais das diferentes informações de entrada além de permitir instanciar diferentes abordagens para fusão multimodal (antecipada ou tardia). Tal método foi avaliado na tarefa de segmentação em cenas utilizando uma base de vídeos pública, comparando os resultados obtidos com os resultados de técnicas em estado-da-arte usando diferentes abordagens. Os resultados mostram um avanço significativo na eficácia obtida.
  • Imprenta:
  • Data da defesa: 27.06.2019
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.55.2019.tde-28082019-110926 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      TROJAHN, Tiago Henrique. Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda. 2019. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2019. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082019-110926/. Acesso em: 11 jan. 2026.
    • APA

      Trojahn, T. H. (2019). Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082019-110926/
    • NLM

      Trojahn TH. Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda [Internet]. 2019 ;[citado 2026 jan. 11 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082019-110926/
    • Vancouver

      Trojahn TH. Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda [Internet]. 2019 ;[citado 2026 jan. 11 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082019-110926/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026