Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (2024)
- Authors:
- Autor USP: MATOS, ARIADNE NASCIMENTO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2024.tde-10062024-161431
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; VARIAÇÃO LINGUÍSTICA; RECONHECIMENTO DA FALA; RECONHECIMENTO DE PADRÕES
- Keywords: Automatic recognition; Classificação de variações Linguísticas; Linguistic variations; Linguistic variations classification; Reconhecimento automático; Wav2vec 2.0 XLSR; Wav2vec 2.0 XLSR
- Agências de fomento:
- Language: Português
- Abstract: As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucessotanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Data da defesa: 09.04.2024
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
MATOS, Ariadne Nascimento. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/. Acesso em: 25 abr. 2025. -
APA
Matos, A. N. (2024). Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/ -
NLM
Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2025 abr. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/ -
Vancouver
Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2025 abr. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
Informações sobre o DOI: 10.11606/D.55.2024.tde-10062024-161431 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas