Exportar registro bibliográfico


Metrics:

Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (2024)

  • Authors:
  • Autor USP: MATOS, ARIADNE NASCIMENTO - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • DOI: 10.11606/D.55.2024.tde-10062024-161431
  • Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; VARIAÇÃO LINGUÍSTICA; RECONHECIMENTO DA FALA; RECONHECIMENTO DE PADRÕES
  • Keywords: Automatic recognition; Classificação de variações Linguísticas; Linguistic variations; Linguistic variations classification; Reconhecimento automático; Wav2vec 2.0 XLSR; Wav2vec 2.0 XLSR
  • Agências de fomento:
  • Language: Português
  • Abstract: As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucessotanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.
  • Imprenta:
  • Data da defesa: 09.04.2024
  • Acesso à fonteAcesso à fonteDOI

    Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

    Status:
    Artigo publicado em periódico de acesso aberto (Gold Open Access)
    Versão do Documento:
    Versão publicada (Published version)
    Acessar versão aberta:

    Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.


    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MATOS, Ariadne Nascimento. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/. Acesso em: 11 maio 2026.
    • APA

      Matos, A. N. (2024). Classificação de Variações Linguísticas do Português do Brasil por meio da Fala (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
    • NLM

      Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2026 maio 11 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
    • Vancouver

      Matos AN. Classificação de Variações Linguísticas do Português do Brasil por meio da Fala [Internet]. 2024 ;[citado 2026 maio 11 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026