Description
This pipeline can be used to deidentify PHI information from German medical texts. The PHI information will be masked and obfuscated in the resulting text. The pipeline can mask and obfuscate PATIENT
, HOSPITAL
, DATE
, ORGANIZATION
, CITY
, STREET
, USERNAME
, PROFESSION
, PHONE
, COUNTRY
, DOCTOR
, AGE
, CONTACT
, ID
, PHONE
, ZIP
, ACCOUNT
, SSN
, DLN
, PLATE
entities.
Live Demo Open in Colab Copy S3 URI
How to use
from sparknlp.pretrained import PretrainedPipeline
deid_pipeline = PretrainedPipeline("clinical_deidentification", "de", "clinical/models")
sample = """Michael Berger wird am Morgen des 12 Dezember 2018 ins St. Elisabeth-Krankenhaus
in Bad Kissingen eingeliefert. Herr Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen."""
result = deid_pipe.annotate(sample)
print("\n".join(result['masked']))
print("\n".join(result['obfuscated']))
import com.johnsnowlabs.nlp.pretrained.PretrainedPipeline
val deid_pipeline = PretrainedPipeline("clinical_deidentification","de","clinical/models")
val sample = """Michael Berger wird am Morgen des 12 Dezember 2018 ins St. Elisabeth-Krankenhaus
in Bad Kissingen eingeliefert. Herr Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen."""
val result = deid_pipe.annotate(sample)
import nlu
nlu.load("de.deid.clinical").predict("""Michael Berger wird am Morgen des 12 Dezember 2018 ins St. Elisabeth-Krankenhaus
in Bad Kissingen eingeliefert. Herr Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen.""")
Results
<PATIENT> wird am Morgen des <DATE> ins <HOSPITAL> in <CITY> eingeliefert.
<PATIENT> ist <AGE> Jahre alt und hat zu viel Wasser in den Beinen.
Mathias Farber wird am Morgen des 05-01-1978 ins Rechts der Isar Hospital in Berlin eingeliefert.
Mathias Farber ist 56 Jahre alt und hat zu viel Wasser in den Beinen.
Model Information
Model Name: | clinical_deidentification |
Type: | pipeline |
Compatibility: | Healthcare NLP 3.3.4+ |
License: | Licensed |
Edition: | Official |
Language: | de |
Size: | 1.3 GB |
Included Models
- DocumentAssembler
- SentenceDetectorDLModel
- TokenizerModel
- WordEmbeddingsModel
- MedicalNerModel
- NerConverter
- ContextualParserModel
- ChunkMergeModel
- DeIdentificationModel