On self-supervised representations for 3D speech enhancement

Guimarães, Heitor Rodrigues; Arjona Ramírez, Miguel; Beccaro, Wesley

Tese

On self-supervised representations for 3D speech enhancement (2022)

Authors:
Autor USP: GUIMARÃES, HEITOR RODRIGUES - EP
Unidade: EP
Sigla do Departamento: PSI
Subjects: PROCESSAMENTO DE VOZ; APRENDIZADO COMPUTACIONAL
Language: Inglês
Abstract: Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.
Imprenta:
- Publisher place: São Paulo
- Date published: 2022
Data da defesa: 28.06.2022

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

GUIMARÃES, Heitor Rodrigues. On self-supervised representations for 3D speech enhancement. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/. Acesso em: 10 abr. 2026.
APA

Guimarães, H. R. (2022). On self-supervised representations for 3D speech enhancement (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
NLM

Guimarães HR. On self-supervised representations for 3D speech enhancement [Internet]. 2022 ;[citado 2026 abr. 10 ] Available from: https://teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
Vancouver

Guimarães HR. On self-supervised representations for 3D speech enhancement [Internet]. 2022 ;[citado 2026 abr. 10 ] Available from: https://teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

A perceptual loss based complex neural beamforming for ambix 3D speech enhancement

ReP

Exportar registro bibliográfico

On self-supervised representations for 3D speech enhancement (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

On self-supervised representations for 3D speech enhancement (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: