Anonimização de textos médicos com processamento de linguagem natural (2025)
- Authors:
- USP affiliated authors: PAZIN FILHO, ANTONIO - FMRP ; SILVA, RILDO PINTO DA - FMRP
- Unidade: FMRP
- DOI: 10.59681/2175-4411.v17.2025.1227
- Subjects: ANOMIA; REGISTROS MÉDICOS; PROTEÇÃO DE DADOS PESSOAIS; MÉTRICA
- Keywords: Anonimização de dados; Prontuário médico; Processamento de linguagem natural; Data anonymization; Medical records; Natural language processing
- Language: Português
- Abstract: Objetivo: Apresentar e avaliar um método de anonimização para prontuários médicos em português, utilizando um modelo de reconhecimento de entidades nomeadas (NER) pré-treinado sem ajuste fino. Método: Aplicou-se o modelo Generalist and Lightweight Model for Named Entety Recognition (GLiNER) para identificar e mascarar informações potencialmente identificadoras (exemplo: nome, idade, organização e cidade) em 27.540 resumos de alta (12.163 pacientes) de um hospital terciário em São Paulo (2017-2023). Avaliou-se a perda de informação com ROUGE F1, BLEU-4, BERTscore e realizou-se análise humana de erros em amostra aleatória (N=400). Resultado: A análise humana mostrou falha de anonimização de dois casos (0,50%) permitindo a identificação do paciente ou do assistente. As métricas quantitativas indicaram preservação da utilidade textual (mediana BERTscore: 0,76) Conclusão: O método é eficiente, mas não perfeito, evidenciando a necessidade de uma abordagem híbrida de anonimização (automático e validação humana) para conformidade com a Lei Geral de Proteção de Dados Pessoais. Pode ser usado como um passo inicial para a criação de conjuntos de dados médicos necessários ao desenvolvimento do processamento de linguagem natural no Brasil.Objetivo: Presentar y evaluar un método de anonimización para historias clínicas en portugués, utilizando un modelo de reconocimiento de entidades nombradas (NER) pre-entrenado sin ajuste fino. Método: Se aplicó el modelo GLiNER (Generalist and Lightweight Model for Named Entity Recognition) para identificar y enmascarar Información Personal Identificable (IPI) (ej.: nombre, edad, org., ciudad) en 27.540 informes de alta (12.163 pacientes) de un hospital terciario en São Paulo (2017-2023). Se evaluó la pérdida de información con ROUGE F1, BLEU-4, BERTscore y análisis hu-mano de errores en muestra aleatoria (N=400). . Resultado: El análisis humano reveló fallos de anonimización en dos casos (0,50%) permitiendo la identificación del paciente o del professional asistente. Las métricas cuantitativas indicaron preservación de la utilidad textual (mediana BERTscore: 0,76). Concluyendo: El modelo es eficiente pero no perfecto, evidenciando la necesidad de un enfoque híbrido de anonimización (automática y validación humana) para conformidad con la Ley General de Protección de Datos Personales. Puede utilizarse como un paso hacia la creación de conjuntos de datos médicos necesarios para el desarrollo del procesamiento del lenguaje natural en Brasil
- Imprenta:
- Source:
- Título: Journal of Health Informatics
- ISSN: 2175-4411
- Volume/Número/Paginação/Ano: v. 17, art. 1227, [7] p, 2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
SILVA, Rildo Pinto da e PAZIN FILHO, Antônio. Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, v. 17, 2025Tradução . . Disponível em: https://doi.org/10.59681/2175-4411.v17.2025.1227. Acesso em: 07 abr. 2026. -
APA
Silva, R. P. da, & Pazin Filho, A. (2025). Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, 17. doi:10.59681/2175-4411.v17.2025.1227 -
NLM
Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 abr. 07 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227 -
Vancouver
Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 abr. 07 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227 - Taxa e custos médicos diretos de cesáreas em beneficiárias da saúde suplementar no estado de São Paulo, Brasil: 2015 a 2021
- Unsupervised natural language processing in the identification of patients with suspected COVID-19 infection
- Mineração de dados aplicada na base de internação da saúde suplementar do estado de São Paulo: estudo de caso da via de parto
- Princípios de prescrição médica hospitalar para estudantes de medicina
- Gestão de recursos em terapia intensiva: aplicação de um sistema de informação para organização da fila
- Heart failure disease management program experience in 4,545 heart failure admissions to a community hospital
- Prognostic value of MMP-9 -1562 C/T gene polymorphism in patients with sepsis
- Reversal of refractory severe lactic acidosis by thiamine replacement
- Análise do impacto orçamentário causado pela implantação de assinatura digital no Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo
- HC ampliará Unidade de Emergência.[Entrevista a Luís Ribeiro]
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| 003285646.pdf |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
