Exportar registro bibliográfico

On self-supervised representations for 3D speech enhancement (2022)

  • Authors:
  • Autor USP: GUIMARÃES, HEITOR RODRIGUES - EP
  • Unidade: EP
  • Sigla do Departamento: PSI
  • Subjects: PROCESSAMENTO DE VOZ; APRENDIZADO COMPUTACIONAL
  • Language: Inglês
  • Abstract: Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.
  • Imprenta:
  • Data da defesa: 28.06.2022
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      GUIMARÃES, Heitor Rodrigues. On self-supervised representations for 3D speech enhancement. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/. Acesso em: 13 jun. 2025.
    • APA

      Guimarães, H. R. (2022). On self-supervised representations for 3D speech enhancement (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
    • NLM

      Guimarães HR. On self-supervised representations for 3D speech enhancement [Internet]. 2022 ;[citado 2025 jun. 13 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
    • Vancouver

      Guimarães HR. On self-supervised representations for 3D speech enhancement [Internet]. 2022 ;[citado 2025 jun. 13 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025