Description
This is a Binary classification model which identifies two criticality labels(critical, non-critical) in German-based Court Cases.
Predicted Entities
critical
, non-critical
How to use
documentAssembler = nlp.DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")
tokenizer = nlp.Tokenizer() \
.setInputCols("document") \
.setOutputCol("token")
classifier = nlp.RoBertaForSequenceClassification.pretrained("legclf_critical_prediction_legal", "de", "legal/models") \
.setInputCols(["document", "token"]) \
.setOutputCol("class")
nlpPipeline = nlp.Pipeline(
stages = [documentAssembler,
tokenizer,
classifier])
# Example text
example = spark.createDataFrame([["erkennt der Präsident: 1. Auf die Beschwerde wird nicht eingetreten. 2. Es werden keine Gerichtskosten erhoben. 3. Dieses Urteil wird den Parteien, dem Sozialversicherungsgericht des Kantons Zürich und dem Staatssekretariat für Wirtschaft (SECO) schriftlich mitgeteilt. Luzern, 5. Dezember 2016 Im Namen der I. sozialrechtlichen Abteilung des Schweizerischen Bundesgerichts Der Präsident: Maillard Der Gerichtsschreiber: Grünvogel"]]).toDF("text")
empty_data = spark.createDataFrame([[""]]).toDF("text")
model = nlpPipeline.fit(empty_data)
result = model.transform(example)
# result is a DataFrame
result.select("text", "class.result").show()
Results
+----------------------------------------------------------------------------------------------------+--------------+
| text| result|
+----------------------------------------------------------------------------------------------------+--------------+
|erkennt der Präsident: 1. Auf die Beschwerde wird nicht eingetreten. 2. Es werden keine Gerichtsk...|[non_critical]|
+----------------------------------------------------------------------------------------------------+--------------+
Model Information
Model Name: | legclf_critical_prediction_legal |
Compatibility: | Legal NLP 1.0.0+ |
License: | Licensed |
Edition: | Official |
Input Labels: | [document, token] |
Output Labels: | [class] |
Language: | de |
Size: | 468.5 MB |
Case sensitive: | true |
Max sentence length: | 512 |
References
Train dataset available here
Benchmarking
label precision recall f1-score support
critical 0.76 0.87 0.81 249
non_critical 0.87 0.76 0.81 293
accuracy - - 0.81 542
macro-avg 0.81 0.82 0.81 542
weighted-avg 0.82 0.81 0.81 542