Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition (2025)
- Authors:
- Autor USP: GUIMARÃES, SAMUEL GALES - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-26012026-181506
- Subjects: VISÃO COMPUTACIONAL; APRENDIZADO COMPUTACIONAL; PROTEÇÃO DE DADOS PESSOAIS
- Keywords: Computer vision; Dados sintéticos; Data protection; Geração de imagens; Image generation; License plate recognition; Proteção de dados; Reconhecimento de placas; Synthetic data
- Language: Inglês
- Abstract: A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentosde dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta
- Imprenta:
- Data da defesa: 27.11.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
GUIMARÃES, Samuel Gales. Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/. Acesso em: 11 fev. 2026. -
APA
Guimarães, S. G. (2025). Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/ -
NLM
Guimarães SG. Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition [Internet]. 2025 ;[citado 2026 fev. 11 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/ -
Vancouver
Guimarães SG. Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition [Internet]. 2025 ;[citado 2026 fev. 11 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
Informações sobre o DOI: 10.11606/D.45.2025.tde-26012026-181506 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
