Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (2025)
- Authors:
- Autor USP: CAMARGO NETO, AUGUSTO CÉSAR DE - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-01092025-211443
- Subjects: APRENDIZADO COMPUTACIONAL; APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; REGISTRO VOCAL; VOZ; BIOMARCADORES; SAÚDE
- Keywords: Acoustic noise; Análise vocal; Aprendizado de máquina; Aprendizado profundo; Biomarcadores vocais; Conformidade regulatória; Controle de qualidade; Deep learning; Diagnóstico em Saúde digital; Digital health diagnostics; Machine learning; Quality control; Regulatory compliance; Ruído acústico; Vocal analysis; Vocal biomarkers
- Agências de fomento:
- Language: Inglês
- Abstract: Sistemas de análise vocal baseados em inteligência artificial (IA) emergiram como ferramentas promissoras para diagnósticos de saúde não invasivos e escaláveis. Contudo, sua transição de ambientes laboratoriais controlados para a prática clínica real continua a ser dificultada pela vulnerabilidade ao ruído acústico, que compromete a estabilidade das características extraídas e a acurácia dos modelos preditivos. Esta tese investiga sistematicamente a resiliência de pipelines de análise vocal sob condições de ruído sintético controlado e em cenários sonoros hospitalares autênticos, abordando três hipóteses interconectadas: a estabilidade das características acústicas, a robustez dos modelos de aprendizado de máquina e a eficácia de mecanismos de controle de qualidade pré-inferência. O estudo emprega um delineamento experimental rigoroso, combinando análises estatísticas em nível de características com avaliações em nível de modelo, abrangendo arquiteturas de aprendizado de máquina clássico (SVM) e aprendizado profundo (CNN). Corpos linguísticos limpos dos datasets Casanova, Elbéji e Libri foram sistematicamente contaminados com ruído em múltiplas relações sinal-ruído (1040 dB), gerando mais de 600 variações controladas por nível. Os resultados demonstram que características-chave como a relação harmônico-ruído (HNR), jitter, shimmer e MFCCs degradam-se substancialmente abaixo de 30 dB, e tanto os classificadores baseados em SVM quanto em CNN exibem reduções significativas emacurácia, revocação e especificidade em condições ruidosas. Tais achados suportam a rejeição das hipóteses nulas relativas à robustez das características e dos modelos. Para mitigar essas vulnerabilidades, a tese introduz o Controle de Qualidade para Amostras Vocais (QCVS), um inovador sistema de pré-triagem baseado em IA que utiliza Redes Neurais de Áudio Pré-treinadas (Pretrained Audio Neural Networks PANN) ajustadas. O QCVS operacionaliza o conceito de uma Zona de Robustez (SNR 30 dB), classificando as amostras como acusticamente viáveis ou comprometidas antes da inferência. Em múltiplos conjuntos de dados, o QCVS reduziu a taxa de erro de diagnóstico simulada em mais de 93%, validando seu potencial como uma salvaguarda alinhada às normas regulatórias para Software as a Medical Device (SaMD). Este trabalho avança o campo ao (i) definir empiricamente um limiar de robustez para a confiabilidade da análise vocal, (ii) demonstrar a degradação sistemática tanto de características quanto de modelos sob ruído, e (iii) fornecer uma metodologia de controle de qualidade validada que preenche a lacuna entre protótipos de pesquisa e a aplicação clínica. Ao estabelecer uma estrutura que se alinha com as expectativas regulatórias de agências como a FDA e a MHRA, a tese contribui com fundamentos críticos para a integração segura, eficaz e confiável da análise vocal na prática da saúde
- Imprenta:
- Data da defesa: 02.07.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
CAMARGO NETO, Augusto César de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/. Acesso em: 16 abr. 2026. -
APA
Camargo Neto, A. C. de. (2025). Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ -
NLM
Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 abr. 16 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ -
Vancouver
Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 abr. 16 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ - Text-to-hashtag generation using Seq2Seq learning
- Discriminant audio properties in deep learning based respiratory insufficiency detection in brazilian portuguese
- Detecting respiratory insufficiency by voice analysis: the SPIRA project
- Detecting respiratory insufficiency by voice analysis: the SPIRA project
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
