Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala (2022)
- Authors:
- Autor USP: CASANOVA, EDRESSON - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2022.tde-02092022-142539
- Subjects: SÍNTESE DE FALA; RECONHECIMENTO DA FALA; RECONHECIMENTO DE PADRÕES; RECONHECIMENTO DE VOZ; APRENDIZADO COMPUTACIONAL
- Keywords: ASR; Automatic speech recognition; Conversão de voz zero-shot; Cross-lingual zero-shot voice conversion; Multi-lingual speech synthesis; Reconhecimento automático de fala; Síntese de fala multilíngue; Síntese de fala zero-shot; Speech synthesis; TTS; Zero-shot multi-speaker TTS
- Agências de fomento:
- Language: Português
- Abstract: O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelosflow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 06.07.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
CASANOVA, Edresson. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/. Acesso em: 06 jun. 2025. -
APA
Casanova, E. (2022). Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ -
NLM
Casanova E. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala [Internet]. 2022 ;[citado 2025 jun. 06 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ -
Vancouver
Casanova E. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala [Internet]. 2022 ;[citado 2025 jun. 06 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ - Brazilian portuguese speech recognition using Wav2vec 2.0
- Desenvolvimento de um modelo de reconhecimento de voz para o português brasileiro com poucos dados utilizando o Wav2vec 2.0
- BibleTTS: a large, high-fidelity, multilingual, and uniquely African speech corpus
- Deep learning approaches for speech synthesis and speaker verification
- Overview of the Automatic Speech Recognition for Spontaneous and Prepared Speech & Speech Emotion Recognition in Portuguese (SE&R) shared-tasks at PROPOR 2022
- Evaluating sentence segmentation in different datasets of neuropsychological language tests in brazilian portuguese
- YourTTS: towards zero-shot multi-speaker TTS and zero-shot voice conversion for everyone
- SC-GlowTTS: an efficient zero-shot multi-speaker text-to-speech model
- ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion
- Evaluating semantic similarity methods to build semantic predictability norms of reading data
Informações sobre o DOI: 10.11606/T.55.2022.tde-02092022-142539 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas