A mobile device framework for video captioning using multimodal neural networks (2023)
- Authors:
- USP affiliated authors: CESAR JUNIOR, ROBERTO MARCONDES - IME ; DAMACENO, RAFAEL JEFERSON PEZZUTO - IME
- Unidade: IME
- DOI: 10.5753/sibgrapi.est.2023.27457
- Assunto: VISÃO COMPUTACIONAL
- Agências de fomento:
- Language: Inglês
- Imprenta:
- Publisher: SBC
- Publisher place: Porto Alegre
- Date published: 2023
- Source:
- Título: Anais estendidos
- Conference titles: Conference on Graphics, Patterns and Images - SIBGRAPI
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
DAMACENO, Rafael Jeferson Pezzuto e CÉSAR JÚNIOR, Roberto Marcondes. A mobile device framework for video captioning using multimodal neural networks. 2023, Anais.. Porto Alegre: SBC, 2023. Disponível em: https://doi.org/10.5753/sibgrapi.est.2023.27457. Acesso em: 01 abr. 2026. -
APA
Damaceno, R. J. P., & César Júnior, R. M. (2023). A mobile device framework for video captioning using multimodal neural networks. In Anais estendidos. Porto Alegre: SBC. doi:10.5753/sibgrapi.est.2023.27457 -
NLM
Damaceno RJP, César Júnior RM. A mobile device framework for video captioning using multimodal neural networks [Internet]. Anais estendidos. 2023 ;[citado 2026 abr. 01 ] Available from: https://doi.org/10.5753/sibgrapi.est.2023.27457 -
Vancouver
Damaceno RJP, César Júnior RM. A mobile device framework for video captioning using multimodal neural networks [Internet]. Anais estendidos. 2023 ;[citado 2026 abr. 01 ] Available from: https://doi.org/10.5753/sibgrapi.est.2023.27457 - SideSeeing: a multimodal dataset and tools for sidewalk assessment
- An end-to-end deep learning approach for video captioning through mobile devices
- Tactile path guidance via weakly supervised visual attention
- Video cropping using salience maps: a case study on a sidewalk dataset
- sisRedes: uma ferramenta para o estudo da colaboração exógena entre pesquisadores
- Towards a method for evaluating bus stop infrastructure with street level images and large language models
- PCA-based 3D face photography
- A graph-based approach for object detection and action recognition in videos
- Graph-based pattern recognition and applications
- 3D face computational photography using PCA spaces
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| 3195385.pdf | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
