Anonimização de textos médicos com processamento de linguagem natural (2025)
- Authors:
- USP affiliated authors: PAZIN FILHO, ANTONIO - FMRP ; SILVA, RILDO PINTO DA - FMRP
- Unidade: FMRP
- DOI: 10.59681/2175-4411.v17.2025.1227
- Subjects: ANOMIA; REGISTROS MÉDICOS; PROTEÇÃO DE DADOS PESSOAIS; MÉTRICA
- Keywords: Anonimização de dados; Prontuário médico; Processamento de linguagem natural; Data anonymization; Medical records; Natural language processing
- Language: Português
- Abstract: Objetivo: Apresentar e avaliar um método de anonimização para prontuários médicos em português, utilizando um modelo de reconhecimento de entidades nomeadas (NER) pré-treinado sem ajuste fino. Método: Aplicou-se o modelo Generalist and Lightweight Model for Named Entety Recognition (GLiNER) para identificar e mascarar informações potencialmente identificadoras (exemplo: nome, idade, organização e cidade) em 27.540 resumos de alta (12.163 pacientes) de um hospital terciário em São Paulo (2017-2023). Avaliou-se a perda de informação com ROUGE F1, BLEU-4, BERTscore e realizou-se análise humana de erros em amostra aleatória (N=400). Resultado: A análise humana mostrou falha de anonimização de dois casos (0,50%) permitindo a identificação do paciente ou do assistente. As métricas quantitativas indicaram preservação da utilidade textual (mediana BERTscore: 0,76) Conclusão: O método é eficiente, mas não perfeito, evidenciando a necessidade de uma abordagem híbrida de anonimização (automático e validação humana) para conformidade com a Lei Geral de Proteção de Dados Pessoais. Pode ser usado como um passo inicial para a criação de conjuntos de dados médicos necessários ao desenvolvimento do processamento de linguagem natural no Brasil.Objetivo: Presentar y evaluar un método de anonimización para historias clínicas en portugués, utilizando un modelo de reconocimiento de entidades nombradas (NER) pre-entrenado sin ajuste fino. Método: Se aplicó el modelo GLiNER (Generalist and Lightweight Model for Named Entity Recognition) para identificar y enmascarar Información Personal Identificable (IPI) (ej.: nombre, edad, org., ciudad) en 27.540 informes de alta (12.163 pacientes) de un hospital terciario en São Paulo (2017-2023). Se evaluó la pérdida de información con ROUGE F1, BLEU-4, BERTscore y análisis hu-mano de errores en muestra aleatoria (N=400). . Resultado: El análisis humano reveló fallos de anonimización en dos casos (0,50%) permitiendo la identificación del paciente o del professional asistente. Las métricas cuantitativas indicaron preservación de la utilidad textual (mediana BERTscore: 0,76). Concluyendo: El modelo es eficiente pero no perfecto, evidenciando la necesidad de un enfoque híbrido de anonimización (automática y validación humana) para conformidad con la Ley General de Protección de Datos Personales. Puede utilizarse como un paso hacia la creación de conjuntos de datos médicos necesarios para el desarrollo del procesamiento del lenguaje natural en Brasil
- Imprenta:
- Source:
- Título: Journal of Health Informatics
- ISSN: 2175-4411
- Volume/Número/Paginação/Ano: v. 17, art. 1227, [7] p, 2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
SILVA, Rildo Pinto da e PAZIN FILHO, Antônio. Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, v. 17, 2025Tradução . . Disponível em: https://doi.org/10.59681/2175-4411.v17.2025.1227. Acesso em: 24 jan. 2026. -
APA
Silva, R. P. da, & Pazin Filho, A. (2025). Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, 17. doi:10.59681/2175-4411.v17.2025.1227 -
NLM
Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 jan. 24 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227 -
Vancouver
Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 jan. 24 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227 - Taxa e custos médicos diretos de cesáreas em beneficiárias da saúde suplementar no estado de São Paulo, Brasil: 2015 a 2021
- Unsupervised natural language processing in the identification of patients with suspected COVID-19 infection
- Mineração de dados aplicada na base de internação da saúde suplementar do estado de São Paulo: estudo de caso da via de parto
- Choque circulatório
- Eplerenone, a selective aldosterone blocker, in patients with left ventricular dysfunction after myocardial infarction
- Interação com a platéia
- Simulação: aspectos conceituais
- Aula teórica: quando utilizar?
- Emprego de simulações no ensino na avaliação
- Error in body weight estimation leads to inadequate parenteral anticoagulation
Informações sobre o DOI: 10.59681/2175-4411.v17.2025.1227 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
