Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance

Camargo Neto, Augusto César de; Finger, Marcelo

Tese

Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (2025)

Authors:
- Camargo Neto, Augusto César de
- Finger, Marcelo (Orientador)
Autor USP: CAMARGO NETO, AUGUSTO CÉSAR DE - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2025.tde-01092025-211443
Subjects: APRENDIZADO COMPUTACIONAL; APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; REGISTRO VOCAL; VOZ; BIOMARCADORES; SAÚDE
Keywords: Acoustic noise; Análise vocal; Aprendizado de máquina; Aprendizado profundo; Biomarcadores vocais; Conformidade regulatória; Controle de qualidade; Deep learning; Diagnóstico em Saúde digital; Digital health diagnostics; Machine learning; Quality control; Regulatory compliance; Ruído acústico; Vocal analysis; Vocal biomarkers
Agências de fomento:
- Financiamento Bluecore
Language: Inglês
Abstract: Sistemas de análise vocal baseados em inteligência artificial (IA) emergiram como ferramentas promissoras para diagnósticos de saúde não invasivos e escaláveis. Contudo, sua transição de ambientes laboratoriais controlados para a prática clínica real continua a ser dificultada pela vulnerabilidade ao ruído acústico, que compromete a estabilidade das características extraídas e a acurácia dos modelos preditivos. Esta tese investiga sistematicamente a resiliência de pipelines de análise vocal sob condições de ruído sintético controlado e em cenários sonoros hospitalares autênticos, abordando três hipóteses interconectadas: a estabilidade das características acústicas, a robustez dos modelos de aprendizado de máquina e a eficácia de mecanismos de controle de qualidade pré-inferência. O estudo emprega um delineamento experimental rigoroso, combinando análises estatísticas em nível de características com avaliações em nível de modelo, abrangendo arquiteturas de aprendizado de máquina clássico (SVM) e aprendizado profundo (CNN). Corpos linguísticos limpos dos datasets Casanova, Elbéji e Libri foram sistematicamente contaminados com ruído em múltiplas relações sinal-ruído (1040 dB), gerando mais de 600 variações controladas por nível. Os resultados demonstram que características-chave como a relação harmônico-ruído (HNR), jitter, shimmer e MFCCs degradam-se substancialmente abaixo de 30 dB, e tanto os classificadores baseados em SVM quanto em CNN exibem reduções significativas emacurácia, revocação e especificidade em condições ruidosas. Tais achados suportam a rejeição das hipóteses nulas relativas à robustez das características e dos modelos. Para mitigar essas vulnerabilidades, a tese introduz o Controle de Qualidade para Amostras Vocais (QCVS), um inovador sistema de pré-triagem baseado em IA que utiliza Redes Neurais de Áudio Pré-treinadas (Pretrained Audio Neural Networks PANN) ajustadas. O QCVS operacionaliza o conceito de uma Zona de Robustez (SNR 30 dB), classificando as amostras como acusticamente viáveis ou comprometidas antes da inferência. Em múltiplos conjuntos de dados, o QCVS reduziu a taxa de erro de diagnóstico simulada em mais de 93%, validando seu potencial como uma salvaguarda alinhada às normas regulatórias para Software as a Medical Device (SaMD). Este trabalho avança o campo ao (i) definir empiricamente um limiar de robustez para a confiabilidade da análise vocal, (ii) demonstrar a degradação sistemática tanto de características quanto de modelos sob ruído, e (iii) fornecer uma metodologia de controle de qualidade validada que preenche a lacuna entre protótipos de pesquisa e a aplicação clínica. Ao estabelecer uma estrutura que se alinha com as expectativas regulatórias de agências como a FDA e a MHRA, a tese contribui com fundamentos críticos para a integração segura, eficaz e confiável da análise vocal na prática da saúde
Imprenta:
- Publisher place: São Paulo
- Date published: 2025
Data da defesa: 02.07.2025

Informações sobre o DOI: 10.11606/D.45.2025.tde-01092025-211443 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo NÃO é de acesso aberto

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

CAMARGO NETO, Augusto César de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/. Acesso em: 28 fev. 2026.
APA

Camargo Neto, A. C. de. (2025). Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/
NLM

Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 fev. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/
Vancouver

Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 fev. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/

ReP

Exportar registro bibliográfico

Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: