Exportar registro bibliográfico


Metrics:

Processamento de voz para detecção de insuficiência respiratória (2025)

  • Authors:
  • Autor USP: BARBOZA, VINICIUS DE ARAUJO - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2025.tde-20102025-214354
  • Subjects: INSUFICIÊNCIA RESPIRATÓRIA; PROCESSAMENTO DIGITAL DE VOZ; PROCESSAMENTO DIGITAL DE SINAIS; ÁUDIO DIGITAL; FREQUÊNCIA DO SOM
  • Keywords: Audio segmentation; Digital signal processing; Frequência fundamental; Fundamental frequency; Processamento de fala; Processamento de sinais digitais; Segmentação de áudio; Segmentação de fala; Speech processing; Speech segmentation; Voice processing
  • Language: Português
  • Abstract: Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa defrequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencialde aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas
  • Imprenta:
  • Data da defesa: 26.08.2025
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2025.tde-20102025-214354 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      BARBOZA, Vinicius de Araujo. Processamento de voz para detecção de insuficiência respiratória. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/. Acesso em: 04 dez. 2025.
    • APA

      Barboza, V. de A. (2025). Processamento de voz para detecção de insuficiência respiratória (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
    • NLM

      Barboza V de A. Processamento de voz para detecção de insuficiência respiratória [Internet]. 2025 ;[citado 2025 dez. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
    • Vancouver

      Barboza V de A. Processamento de voz para detecção de insuficiência respiratória [Internet]. 2025 ;[citado 2025 dez. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025