Description
This model is a BERT based classifier that can classify the origin of symptoms related to Covid-19 from Spanish tweets. This model is intended for direct use as a classification model and the target classes are: Lit-News_mentions, Self_reports, non-personal_reports.
Predicted Entities
Lit-News_mentions
, Self_reports
, non-personal_reports
How to use
document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")
tokenizer = Tokenizer() \
.setInputCols(["document"]) \
.setOutputCol("token")
sequence_classifier = MedicalBertForSequenceClassification.pretrained("bert_sequence_classifier_self_reported_symptoms_tweet_onnx", "en", "clinical/models")\
.setInputCols(["document", "token"])\
.setOutputCol("class")
pipeline = Pipeline(stages=[
document_assembler,
tokenizer,
sequence_classifier
])
data = spark.createDataFrame(["Las vacunas 3 y hablamos inminidad vivo Son bichito vivo dentro de lÃquido de la vacuna suelen tener reacciones alÃorgicas si que sepan",
"Yo pense que me estaba dando el coronavirus porque cuando me levante casi no podia respirar pero que si era que tenia la nariz topada de mocos.",
"Tos, dolor de garganta y fiebre, los síntomas más reportados por los porteños con coronavirus"], StringType()).toDF("text")
model = pipeline.fit(data)
result = model.transform(data)
document_assembler = nlp.DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")
tokenizer = nlp.Tokenizer() \
.setInputCols(["document"]) \
.setOutputCol("token")
sequenceClassifier = medical.BertForSequenceClassification.pretrained("bert_sequence_classifier_self_reported_symptoms_tweet_onnx", "en", "clinical/models")\
.setInputCols(["document","token"])\
.setOutputCol("classes")
pipeline = nlp.Pipeline(stages=[
document_assembler,
tokenizer,
sequenceClassifier
])
data = spark.createDataFrame(["Las vacunas 3 y hablamos inminidad vivo Son bichito vivo dentro de lÃquido de la vacuna suelen tener reacciones alÃorgicas si que sepan",
"Yo pense que me estaba dando el coronavirus porque cuando me levante casi no podia respirar pero que si era que tenia la nariz topada de mocos.",
"Tos, dolor de garganta y fiebre, los síntomas más reportados por los porteños con coronavirus"], StringType()).toDF("text")
model = pipeline.fit(data)
result = model.transform(data)
val document_assembler = new DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")
val tokenizer = new Tokenizer()
.setInputCols(Array("document"))
.setOutputCol("token")
val sequenceClassifier = MedicalBertForSequenceClassification.pretrained("bert_sequence_classifier_self_reported_symptoms_tweet_onnx", "en", "clinical/models")
.setInputCols(Array("document","token"))
.setOutputCol("class")
val pipeline = new Pipeline().setStages(Array(document_assembler, tokenizer, sequenceClassifier))
val data = Seq(
"Las vacunas 3 y hablamos inminidad vivo Son bichito vivo dentro de lÃquido de la vacuna suelen tener reacciones alÃorgicas si que sepan",
"Yo pense que me estaba dando el coronavirus porque cuando me levante casi no podia respirar pero que si era que tenia la nariz topada de mocos.",
"Tos, dolor de garganta y fiebre, los síntomas más reportados por los porteños con coronavirus"
).toDF("text")
val model = pipeline.fit(data)
val result = model.transform(data)
Results
+-------------------------------------------------------------------------------------------------------------------------------------------------+----------------------+
|text |result |
+-------------------------------------------------------------------------------------------------------------------------------------------------+----------------------+
|Las vacunas 3 y hablamos inminidad vivo Son bichito vivo dentro de lÃquido de la vacuna suelen tener reacciones alÃorgicas si que sepan |[non-personal_reports]|
|Yo pense que me estaba dando el coronavirus porque cuando me levante casi no podia respirar pero que si era que tenia la nariz topada de mocos.|[Self_reports] |
|Tos, dolor de garganta y fiebre, los síntomas más reportados por los porteños con coronavirus |[Lit-News_mentions] |
+-------------------------------------------------------------------------------------------------------------------------------------------------+----------------------+
Model Information
Model Name: | bert_sequence_classifier_self_reported_symptoms_tweet_onnx |
Compatibility: | Healthcare NLP 6.1.1+ |
License: | Licensed |
Edition: | Official |
Input Labels: | [document, token] |
Output Labels: | [label] |
Language: | es |
Size: | 443.9 MB |
Case sensitive: | true |