Anonimização de textos médicos com processamento de linguagem natural

Silva, Rildo Pinto da; Pazin Filho, Antônio

Artigo de periodico

Anonimização de textos médicos com processamento de linguagem natural (2025)

Authors:
- Silva, Rildo Pinto da
- Pazin Filho, Antônio
USP affiliated authors: PAZIN FILHO, ANTONIO - FMRP ; SILVA, RILDO PINTO DA - FMRP
Unidade: FMRP
DOI: 10.59681/2175-4411.v17.2025.1227
Subjects: ANOMIA; REGISTROS MÉDICOS; PROTEÇÃO DE DADOS PESSOAIS; MÉTRICA
Keywords: Anonimização de dados; Prontuário médico; Processamento de linguagem natural; Data anonymization; Medical records; Natural language processing
Language: Português
Abstract: Objetivo: Apresentar e avaliar um método de anonimização para prontuários médicos em português, utilizando um modelo de reconhecimento de entidades nomeadas (NER) pré-treinado sem ajuste fino. Método: Aplicou-se o modelo Generalist and Lightweight Model for Named Entety Recognition (GLiNER) para identificar e mascarar informações potencialmente identificadoras (exemplo: nome, idade, organização e cidade) em 27.540 resumos de alta (12.163 pacientes) de um hospital terciário em São Paulo (2017-2023). Avaliou-se a perda de informação com ROUGE F1, BLEU-4, BERTscore e realizou-se análise humana de erros em amostra aleatória (N=400). Resultado: A análise humana mostrou falha de anonimização de dois casos (0,50%) permitindo a identificação do paciente ou do assistente. As métricas quantitativas indicaram preservação da utilidade textual (mediana BERTscore: 0,76) Conclusão: O método é eficiente, mas não perfeito, evidenciando a necessidade de uma abordagem híbrida de anonimização (automático e validação humana) para conformidade com a Lei Geral de Proteção de Dados Pessoais. Pode ser usado como um passo inicial para a criação de conjuntos de dados médicos necessários ao desenvolvimento do processamento de linguagem natural no Brasil.Objetivo: Presentar y evaluar un método de anonimización para historias clínicas en portugués, utilizando un modelo de reconocimiento de entidades nombradas (NER) pre-entrenado sin ajuste fino. Método: Se aplicó el modelo GLiNER (Generalist and Lightweight Model for Named Entity Recognition) para identificar y enmascarar Información Personal Identificable (IPI) (ej.: nombre, edad, org., ciudad) en 27.540 informes de alta (12.163 pacientes) de un hospital terciario en São Paulo (2017-2023). Se evaluó la pérdida de información con ROUGE F1, BLEU-4, BERTscore y análisis hu-mano de errores en muestra aleatoria (N=400). . Resultado: El análisis humano reveló fallos de anonimización en dos casos (0,50%) permitiendo la identificación del paciente o del professional asistente. Las métricas cuantitativas indicaron preservación de la utilidad textual (mediana BERTscore: 0,76). Concluyendo: El modelo es eficiente pero no perfecto, evidenciando la necesidad de un enfoque híbrido de anonimización (automática y validación humana) para conformidad con la Ley General de Protección de Datos Personales. Puede utilizarse como un paso hacia la creación de conjuntos de datos médicos necesarios para el desarrollo del procesamiento del lenguaje natural en Brasil
Imprenta:
- Publisher place: São Paulo
- Date published: 2025
Source:
- Título: Journal of Health Informatics
- ISSN: 2175-4411
- Volume/Número/Paginação/Ano: v. 17, art. 1227, [7] p, 2025

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

Download do texto completo

Tipo	Nome	Link
	003285646.pdf

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

SILVA, Rildo Pinto da e PAZIN FILHO, Antônio. Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, v. 17, 2025Tradução . . Disponível em: https://doi.org/10.59681/2175-4411.v17.2025.1227. Acesso em: 07 abr. 2026.
APA

Silva, R. P. da, & Pazin Filho, A. (2025). Anonimização de textos médicos com processamento de linguagem natural. Journal of Health Informatics, 17. doi:10.59681/2175-4411.v17.2025.1227
NLM

Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 abr. 07 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227
Vancouver

Silva RP da, Pazin Filho A. Anonimização de textos médicos com processamento de linguagem natural [Internet]. Journal of Health Informatics. 2025 ; 17[citado 2026 abr. 07 ] Available from: https://doi.org/10.59681/2175-4411.v17.2025.1227

ReP

Exportar registro bibliográfico

Anonimização de textos médicos com processamento de linguagem natural (2025)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Anonimização de textos médicos com processamento de linguagem natural (2025)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: