Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (2025)
- Authors:
- Autor USP: CAMARGO NETO, AUGUSTO CÉSAR DE - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-01092025-211443
- Subjects: APRENDIZADO COMPUTACIONAL; APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; REGISTRO VOCAL; VOZ; BIOMARCADORES; SAÚDE
- Keywords: Acoustic noise; Análise vocal; Aprendizado de máquina; Aprendizado profundo; Biomarcadores vocais; Conformidade regulatória; Controle de qualidade; Deep learning; Diagnóstico em Saúde digital; Digital health diagnostics; Machine learning; Quality control; Regulatory compliance; Ruído acústico; Vocal analysis; Vocal biomarkers
- Agências de fomento:
- Language: Inglês
- Abstract: Sistemas de análise vocal baseados em inteligência artificial (IA) emergiram como ferramentas promissoras para diagnósticos de saúde não invasivos e escaláveis. Contudo, sua transição de ambientes laboratoriais controlados para a prática clínica real continua a ser dificultada pela vulnerabilidade ao ruído acústico, que compromete a estabilidade das características extraídas e a acurácia dos modelos preditivos. Esta tese investiga sistematicamente a resiliência de pipelines de análise vocal sob condições de ruído sintético controlado e em cenários sonoros hospitalares autênticos, abordando três hipóteses interconectadas: a estabilidade das características acústicas, a robustez dos modelos de aprendizado de máquina e a eficácia de mecanismos de controle de qualidade pré-inferência. O estudo emprega um delineamento experimental rigoroso, combinando análises estatísticas em nível de características com avaliações em nível de modelo, abrangendo arquiteturas de aprendizado de máquina clássico (SVM) e aprendizado profundo (CNN). Corpos linguísticos limpos dos datasets Casanova, Elbéji e Libri foram sistematicamente contaminados com ruído em múltiplas relações sinal-ruído (1040 dB), gerando mais de 600 variações controladas por nível. Os resultados demonstram que características-chave como a relação harmônico-ruído (HNR), jitter, shimmer e MFCCs degradam-se substancialmente abaixo de 30 dB, e tanto os classificadores baseados em SVM quanto em CNN exibem reduções significativas emacurácia, revocação e especificidade em condições ruidosas. Tais achados suportam a rejeição das hipóteses nulas relativas à robustez das características e dos modelos. Para mitigar essas vulnerabilidades, a tese introduz o Controle de Qualidade para Amostras Vocais (QCVS), um inovador sistema de pré-triagem baseado em IA que utiliza Redes Neurais de Áudio Pré-treinadas (Pretrained Audio Neural Networks PANN) ajustadas. O QCVS operacionaliza o conceito de uma Zona de Robustez (SNR 30 dB), classificando as amostras como acusticamente viáveis ou comprometidas antes da inferência. Em múltiplos conjuntos de dados, o QCVS reduziu a taxa de erro de diagnóstico simulada em mais de 93%, validando seu potencial como uma salvaguarda alinhada às normas regulatórias para Software as a Medical Device (SaMD). Este trabalho avança o campo ao (i) definir empiricamente um limiar de robustez para a confiabilidade da análise vocal, (ii) demonstrar a degradação sistemática tanto de características quanto de modelos sob ruído, e (iii) fornecer uma metodologia de controle de qualidade validada que preenche a lacuna entre protótipos de pesquisa e a aplicação clínica. Ao estabelecer uma estrutura que se alinha com as expectativas regulatórias de agências como a FDA e a MHRA, a tese contribui com fundamentos críticos para a integração segura, eficaz e confiável da análise vocal na prática da saúde
- Imprenta:
- Data da defesa: 02.07.2025
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
CAMARGO NETO, Augusto César de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/. Acesso em: 09 jan. 2026. -
APA
Camargo Neto, A. C. de. (2025). Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ -
NLM
Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 jan. 09 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ -
Vancouver
Camargo Neto AC de. Evaluating the robustness of AI-based vocal biomarkers against real-world noise: toward regulatory standards and compliance [Internet]. 2025 ;[citado 2026 jan. 09 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-01092025-211443/ - Text-to-hashtag generation using Seq2Seq learning
- Discriminant audio properties in deep learning based respiratory insufficiency detection in brazilian portuguese
- Detecting respiratory insufficiency by voice analysis: the SPIRA project
- Detecting respiratory insufficiency by voice analysis: the SPIRA project
Informações sobre o DOI: 10.11606/D.45.2025.tde-01092025-211443 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
