Classificação de Variações Linguísticas do Português do Brasil por meio da Fala

Matos, Ariadne Nascimento; Ponti, Moacir Antonelli

Tese

Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (2024)

Authors:
- Matos, Ariadne Nascimento
- Ponti, Moacir Antonelli (Orientador)
Autor USP: MATOS, ARIADNE NASCIMENTO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
DOI: 10.11606/D.55.2024.tde-10062024-161431
Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; VARIAÇÃO LINGUÍSTICA; RECONHECIMENTO DA FALA; RECONHECIMENTO DE PADRÕES
Keywords: Automatic recognition; Classificação de variações Linguísticas; Linguistic variations; Linguistic variations classification; Reconhecimento automático; Wav2vec 2.0 XLSR; Wav2vec 2.0 XLSR
Agências de fomento:
- Financiamento CAPES
Language: Português
Abstract: As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucessotanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.
Imprenta:
- Publisher place: São Carlos
- Date published: 2024
Data da defesa: 09.04.2024

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

MATOS, Ariadne Nascimento. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/. Acesso em: 11 maio 2026.
APA

Matos, A. N. (2024). Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
NLM

Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2026 maio 11 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
Vancouver

Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2026 maio 11 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/

ReP

Exportar registro bibliográfico

Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (2024)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (2024)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: