Um estudo empírico sobre classificação de símbolos matemáticos manuscritos (2014)
- Autores:
- Autor USP: OLIVEIRA, MARCELO VALENTIM DE - IME
- Unidade: IME
- Sigla do Departamento: MAC
- Assunto: INTELIGÊNCIA ARTIFICIAL
- Agências de fomento:
- Idioma: Português
- Resumo: O processo de reconhecimento de expressões matemáticas manuscritas contém várias etapas, que constituem principalmente em segmentação dos símbolos, identificação do significado de cada símbolo e análise estrutural da expressão. O reconhecimento de símbolos em si já oferece uma série de desafios, como um tratamento eficiente da grande quantidade de tipos de símbolos existentes e da grande similaridade visual de símbolos de tipos diferentes. Outro obstáculo relativo a esse problema é a escassez de dados suficientes para representar a sintaxe matemática completa referentes à escrita de símbolos. Neste trabalho utilizamos uma série de conjuntos de dados disponíveis já existentes, e acrescentamos a eles novos dados coletados. Os dados são representados de forma on-line, o que significa que os símbolos são armazenados como sequências de pontos em um sistema de coordenadas formando traços escritos, ao invés de uma malha de pixels representando a imagem completa correspondente ao símbolo. Descrevemos métodos de pré-processamento de dados, aplicados aos símbolos com o objetivo de eliminar ruídos no sinal e normalizar padrões de escrita, para torná-los comparáveis entre si. São descritos também os métodos de extração de informações potencialmente relevantes (chamadas características) propostos por Delaye e Anquetil (2013), que foram definidos por seus autores para formação de um conjunto base de características (chamado HBF49) aplicáveis a problemas gerais de reconhecimento de símbolos on-line. Discutimos também métodos básicos de aprendizado para classificação multi-classe, especialmente as abordagens um-contra-todos e todos-contra-todos de decomposição de um problema multi-classe em problemas de classificação binária, e métodos específicos de classificação como vizinhosmais-próximos, árvores de decisão e máquinasde suporte vetorial. Para investigar formas de decompor o problema de classificação em sub-problemas de menos classes, desenvolvemos uma abordagem que utiliza uma árvore de decisão para dividir a base de dados em uma estrutura hierárquica, e treina um classificador multi-classe para folha. Nossos experimentos mostram a clara degradação de desempenho dos classificadores com o aumento do número de classes, a relação de tempo de treinamento e teste entre as abordagens um-contra-todos e todos-contra-todos, e a queda maior de desempenho da abordagem todos-contra-todos com a limitação dos dados disponíveis. A abordagem de decomposição do problema também foi experimentada, e, apesar de não ter apresentado ganho significativo na taxa de acerto em comparação com um classificador puro, observamos que o uso da métrica twoing para divisão dos dados em cada nó resultou em árvores de maior estrutura, o que significou um maior tempo de treinamento e menor tempo de teste. Vimos também que as árvores quase sempre atribuem exemplos de teste à folhas cujo conjunto de classes contém a classe do exemplo, fazendo assim com que quase todo o erro seja proveniente dos classificadores das folhas. O uso do conjunto HBF49 no problema de reconhecimento de símbolos matemáticos manuscritos também foi analisado, e foi descoberto que a seleção de pouco mais de metade das características extraídas foi suficiente para chegar próximo ao resultado obtido usando o conjunto inteiro.
- Imprenta:
- Data da defesa: 25.08.2014
-
ABNT
OLIVEIRA, Marcelo Valentim de. Um estudo empírico sobre classificação de símbolos matemáticos manuscritos. 2014. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2014. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522. Acesso em: 26 abr. 2024. -
APA
Oliveira, M. V. de. (2014). Um estudo empírico sobre classificação de símbolos matemáticos manuscritos (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522 -
NLM
Oliveira MV de. Um estudo empírico sobre classificação de símbolos matemáticos manuscritos [Internet]. 2014 ;[citado 2024 abr. 26 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522 -
Vancouver
Oliveira MV de. Um estudo empírico sobre classificação de símbolos matemáticos manuscritos [Internet]. 2014 ;[citado 2024 abr. 26 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-11122014-231522
Como citar
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas