Saliency-based methods for automated video cropping in sidewalk footage (2025)
- Authors:
- Autor USP: COSTA, SUAYDER MILHOMEM - IME
- Unidade: IME
- DOI: 10.11606/D.45.2025.tde-13092025-192333
- Subjects: VISÃO COMPUTACIONAL; INFRAESTRUTURA URBANA; EDIÇÃO DE VÍDEO
- Keywords: Pavimento tátil; Predição de saliência; Recorte de vídeos; Salience prediction; Tactile paving; Urban infrastructure; Video cropping
- Agências de fomento:
- Language: Inglês
- Abstract: A condição da infraestrutura urbana é um aspecto fundamental para garantir a segurança e o bem-estar dos pedestres. Esse fator torna-se ainda mais relevante ao se considerar a acessibilidade para pessoas com mobilidade reduzida, como idosos e pessoas com deficiência visual, que são particularmente vulneráveis a calçadas mal conservadas. Regiões no entorno de hospitais merecem atenção especial não apenas pelo alto fluxo de pedestres e veículos, mas também por atenderem indivíduos em condições de saúde fragilizadas, que demandam acesso seguro e confiável aos serviços médicos. Nesse contexto, diversas ferramentas computacionais já demonstraram seu potencial para análise de infraestrutura urbana, como a classificação de materiais de superfície e a detecção de obstáculos; no entanto, a maioria das soluções existentes depende de dados rotulados, cuja obtenção é dispendiosa e demorada. Para suprir essa lacuna, propõem-se duas estratégias para predição de saliência em vídeos, com o objetivo de reduzir a dependência de rotulagem manual e contribuir para a análise de calçadas. Ambas as estratégias visam, em última instância, o treinamento de preditores de saliência adaptados a características específicas do ambiente urbano. A primeira estratégia explora a atenção visual humana, convertendo cliques de usuários em mapas de atenção por meio de pós-processamento. Essa abordagem demonstra particular eficácia na identificação de obstáculos genéricos em calçadas, como rachaduras edefeitos na superfície. A segunda estratégia emprega o modelo \acf, aprimorado com etapas adicionais de processamento, para gerar de forma mais eficiente dados de vídeo rotulados voltados a características táteis especializadas. Isso possibilita o treinamento de preditores de saliência capazes de reconhecer elementos-chave do piso tátil, incluindo alterações de direção e placas táteis danificadas. Um diferencial dessa abordagem é sua escalabilidade -- com potencial para ser estendida à detecção de uma gama mais ampla de características no ambiente urbano. Esses modelos de saliência constituem a base para um método proposto de recorte automático de vídeos, que visa eliminar regiões irrelevantes dos quadros e destacar as áreas mais significativas com base nos mapas de saliência gerados. Essa abordagem permite identificar regiões-chave em cada quadro e viabiliza aplicações como redirecionamento de vídeo com consciência de conteúdo, foco de atenção em objetos e análise das condições das calçadas, ao evidenciar defeitos e riscos potenciais. Esta pesquisa consolida estudos anteriores \citep{costa2024videocropping, costa2024tactile, costa2025salience}, apresentando as seguintes contribuições principais: (1) desenvolvimento de uma ferramenta de anotação de vídeos baseada em cliques, (2) um conjunto de dados anotados de vídeos egocêntricos de calçadas, voltado para predição de saliência, (3) implementação de duas estratégias de detecção de saliência para recorte de vídeos decalçadas, (4) treinamento e avaliação de modelos de saliência para análise estrutural de calçadas, e (5) integração desses modelos em um framework de recorte automático de vídeo. Os resultados experimentais demonstram que os modelos de saliência propostos destacam de forma eficaz informações relevantes em ambientes urbanos, alcançando AUC de 0,582 para atenção baseada em humanos e 0,914 para atenção baseada em elementos táteis, contribuindo assim para o aprimoramento de tecnologias assistivas voltadas a pessoas com deficiência visual
- Imprenta:
- Data da defesa: 18.07.2025
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
COSTA, Suayder Milhomem. Saliency-based methods for automated video cropping in sidewalk footage. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-13092025-192333/. Acesso em: 28 dez. 2025. -
APA
Costa, S. M. (2025). Saliency-based methods for automated video cropping in sidewalk footage (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-13092025-192333/ -
NLM
Costa SM. Saliency-based methods for automated video cropping in sidewalk footage [Internet]. 2025 ;[citado 2025 dez. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-13092025-192333/ -
Vancouver
Costa SM. Saliency-based methods for automated video cropping in sidewalk footage [Internet]. 2025 ;[citado 2025 dez. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-13092025-192333/
Informações sobre o DOI: 10.11606/D.45.2025.tde-13092025-192333 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
