Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais

Magni, André Bordin; Cabral Júnior, Euvaldo Ferreira

Tese

Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (1998)

Autores:
- Magni, André Bordin
- Cabral Júnior, Euvaldo Ferreira (Orientador)
Autor USP: MAGNI, ANDRÉ BORDIN - EP
Unidade: EP
Sigla do Departamento: PEE
Assunto: ENGENHARIA ELÉTRICA
Idioma: Português
Resumo: Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o "Knock-out" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto de features gerado pelo método "Knock-out" de divergênciaapresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método "Knock-out" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento
Imprenta:
- Local: São Paulo
- Data de publicação: 1998
Data da defesa: 14.12.1998

Como citar

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

MAGNI, André Bordin. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 1998. . Acesso em: 18 set. 2024.
APA

Magni, A. B. (1998). Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (Dissertação (Mestrado). Universidade de São Paulo, São Paulo.
NLM

Magni AB. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998 ;[citado 2024 set. 18 ]
Vancouver

Magni AB. Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais. 1998 ;[citado 2024 set. 18 ]

ReP

Exportar registro bibliográfico

Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (1998)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Unidades USP

ReP

Exportar registro bibliográfico

Reconhecimento automático do locutor com coeficientes mel-cepstrais e redes neurais artificiais (1998)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: