Representation learning of spatio-temporal features from video

Costa, Gabriel de Barros Paranhos da; Ponti, Moacir Antonelli; Mello, Rodrigo Fernandes de

Tese

Representation learning of spatio-temporal features from video (2019)

Authors:
Autor USP: COSTA, GABRIEL DE BARROS PARANHOS DA - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: APRENDIZADO COMPUTACIONAL; VISÃO COMPUTACIONAL; VÍDEO; PROCESSAMENTO DE IMAGENS; PROCESSAMENTO DE SINAIS DE VÍDEO; PROCESSAMENTO DIGITAL DE IMAGENS
Keywords: Aprendizado de características; Aprendizado profundo; Computer vision; Deep learning; Extração de características; Feature extraction; Machine learning; Representation learning; Video processing
Agências de fomento:
- Financiado pela FAPESP and
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Language: Inglês
Abstract: Um dos principais desafios em visão computacional é codificar as informações presentes em imagens e vídeos em um vetor de características que depois pode ser utilizado, por exemplo, para treinar um modelo (aprendizado de máquina). Vídeos incluem um desafio a mais, uma vez que tanto informações espaciais quanto temporais precisam ser consideradas. Para reduzir a necessidade da criação de novos métodos de extração de características, métodos de aprendizado de características buscam criar representação diretamente a partir dos dados; esses métodos obtiveram resultados no estado da arte em diversas tarefas de visão computacionais baseadas em imagens. Por esses motivos, o aprendizado de características espaço-temporais a partir de vídeos é considerado como um próximo passo natural. Apesar de diversas arquiteturas terem sido propostas com esse objetivo, os resultados obtidos por esses métodos, quando aplicados a vídeos, são semelhantes aos obtidos pelos métodos tradicionais e apresentaram vantagens consideravelmente inferiores do que em aplicações focadas em imagens. Nós acreditamos que para encontrar melhorias na área de aprendizado de características espaço-temporais é necessário obter um maior conhecimento sobre como as informações são codificadas por esses métodos, permitindo a tomada de decisão mais bem informada sobre quando cada arquitetura deve ser usada. Com esse fim, nós propomos um novo protocolo de avaliação que utiliza um problema sintético em três diferentesconfigurações onde a informação relevante para a tarefa aparece somente nas dimensões espaciais, na dimensão temporal ou em ambas. Nós também investigamos as vantagens de se utilizar um método de aprendizado de características ao invés de características projetadas manualmente, em especial com relação ao seu uso em diferentes tarefas. Então, nós propomos um método de regularização baseado em redes generativas e transferência de conhecimento como forma de melhorar o espaço de características obtido por métodos de aprendizado de características. Os resultados mostram que quando realizando aprendizado de características espaço-temporais é importante incluir a informações temporal durante todos os estágios. Também notamos que apesar das arquiteturas que utilizam convolução na dimensão temporal obterem os melhores resultados dentre as arquiteturas testadas, essas têm dificuldade para se adaptar a mudanças na informação temporal. Quando comparando o desempenho de características manualmente projetadas e de características aprendidas a partir dos dados, as primeiras obtiveram resultados superiores na tarefa para o qual foram projetadas, mas seu desempenho cai significativamente em outra tarefa, obtendo desempenho inferior nesse caso. Finalmente, nós mostramos que redes generativas possuem em transferência de conhecimento uma promissora aplicação, apesar de ser necessário expandir a análise para incluir características espaço-temporais.
Imprenta:
- Publisher place: São Carlos
- Date published: 2019
Data da defesa: 26.09.2019

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

COSTA, Gabriel de Barros Paranhos da. Representation learning of spatio-temporal features from video. 2019. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2019. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03022020-093918/. Acesso em: 07 abr. 2026.
APA

Costa, G. de B. P. da. (2019). Representation learning of spatio-temporal features from video (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03022020-093918/
NLM

Costa G de BP da. Representation learning of spatio-temporal features from video [Internet]. 2019 ;[citado 2026 abr. 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03022020-093918/
Vancouver

Costa G de BP da. Representation learning of spatio-temporal features from video [Internet]. 2019 ;[citado 2026 abr. 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-03022020-093918/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Detecção de anomalias utilizando métodos paramétricos e múltiplos classificadores

ReP

Exportar registro bibliográfico

Representation learning of spatio-temporal features from video (2019)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Representation learning of spatio-temporal features from video (2019)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: