Exportar registro bibliográfico

Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (1998)

  • Autores:
  • Autor USP: MAGNI, ANDRÉ BORDIN - EP
  • Unidade: EP
  • Sigla do Departamento: PEE
  • Assunto: ENGENHARIA ELÉTRICA
  • Idioma: Português
  • Resumo: Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o "Knock-out" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto de features gerado pelo método "Knock-out" de divergênciaapresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método "Knock-out" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento
  • Imprenta:
  • Data da defesa: 14.12.1998

  • Como citar
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MAGNI, André Bordin. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 1998. . Acesso em: 18 set. 2024.
    • APA

      Magni, A. B. (1998). Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (Dissertação (Mestrado). Universidade de São Paulo, São Paulo.
    • NLM

      Magni AB. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998 ;[citado 2024 set. 18 ]
    • Vancouver

      Magni AB. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998 ;[citado 2024 set. 18 ]

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Biblioteca Digital de Produção Intelectual da Universidade de São Paulo     2012 - 2024