Legal Criticality Prediction Classifier (Italian)

Description

Description: This is a Binary classification model which identifies two criticality labels(critical, non-critical) in Italian-based Court Cases.

Predicted Entities

critical, non-critical

Copy S3 URI

How to use

documentAssembler = nlp.DocumentAssembler() \
    .setInputCol("text") \
    .setOutputCol("document")

tokenizer = nlp.Tokenizer() \
    .setInputCols("document") \
    .setOutputCol("token")

classifier = nlp.RoBertaForSequenceClassification.pretrained("legclf_critical_prediction_italian", "it", "legal/models") \
    .setInputCols(["document", "token"]) \
    .setOutputCol("class")

nlpPipeline = nlp.Pipeline(
      stages = [documentAssembler,
                tokenizer,
                classifier])
     
# Example text
example = spark.createDataFrame([["Per questi motivi, il Tribunale federale pronuncia: 1. Nella misura in cui è ammissibile, il ricorso è respinto. 2. Le spese giudiziarie di fr. 2'000.-- sono poste a carico del ricorrente. 3. Comunicazione ai patrocinatori delle parti, al patrocinatore di C._ e al Presidente della Camera di protezione del Tribunale d'appello del Cantone Ticino."]]).toDF("text")

empty_data = spark.createDataFrame([[""]]).toDF("text")
model = nlpPipeline.fit(empty_data)

result = model.transform(example)

# result is a DataFrame
result.select("text", "class.result").show(truncate=100)

Results

+----------------------------------------------------------------------------------------------------+----------+
|                                                                                                text|    result|
+----------------------------------------------------------------------------------------------------+----------+
|Per questi motivi, il Tribunale federale pronuncia: 1. Nella misura in cui è ammissibile, il rico...|[critical]|
+----------------------------------------------------------------------------------------------------+----------+

Model Information

Model Name: legclf_critical_prediction_italian
Compatibility: Legal NLP 1.0.0+
License: Licensed
Edition: Official
Input Labels: [document, token]
Output Labels: [class]
Language: it
Size: 415.9 MB
Case sensitive: true
Max sentence length: 512

References

Train dataset available here

Benchmarking

label         precision  recall  f1-score  support 
critical      0.82       0.90    0.86      10      
non_critical  0.95       0.91    0.93      23      
accuracy      -          -       0.91      33      
macro-avg     0.89       0.91    0.90      33      
weighted-avg  0.91       0.91    0.91      33