Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala (2022)
- Authors:
- Autor USP: CASANOVA, EDRESSON - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2022.tde-02092022-142539
- Subjects: SÍNTESE DE FALA; RECONHECIMENTO DA FALA; RECONHECIMENTO DE PADRÕES; RECONHECIMENTO DE VOZ; APRENDIZADO COMPUTACIONAL
- Keywords: ASR; Automatic speech recognition; Conversão de voz zero-shot; Cross-lingual zero-shot voice conversion; Multi-lingual speech synthesis; Reconhecimento automático de fala; Síntese de fala multilíngue; Síntese de fala zero-shot; Speech synthesis; TTS; Zero-shot multi-speaker TTS
- Agências de fomento:
- Language: Português
- Abstract: O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelosflow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 06.07.2022
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
CASANOVA, Edresson. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/. Acesso em: 31 mar. 2026. -
APA
Casanova, E. (2022). Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ -
NLM
Casanova E. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala [Internet]. 2022 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ -
Vancouver
Casanova E. Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala [Internet]. 2022 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/ - Desenvolvimento de um modelo de reconhecimento de voz para o português brasileiro com poucos dados utilizando o Wav2vec 2.0
- Brazilian portuguese speech recognition using Wav2vec 2.0
- BibleTTS: a large, high-fidelity, multilingual, and uniquely African speech corpus
- Evaluating sentence segmentation in different datasets of neuropsychological language tests in brazilian portuguese
- Deep learning approaches for speech synthesis and speaker verification
- YourTTS: towards zero-shot multi-speaker TTS and zero-shot voice conversion for everyone
- Overview of the Automatic Speech Recognition for Spontaneous and Prepared Speech & Speech Emotion Recognition in Portuguese (SE&R) shared-tasks at PROPOR 2022
- ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion
- TTS applied to the generation of datasets for automatic speech recognition
- Evaluating semantic similarity methods to build semantic predictability norms of reading data
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
