Part of Speech Tagging - French

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

DET
NOUN
ADJ
AUX
VERB
ADV
ADP
SCONJ
PRON
PUNCT
PROPN
CCONJ
NUM
SYM
X
PART
INTJ

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_gsd", "fr") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['Bonjour de John Snow Labs!']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_gsd", "fr")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Bonjour de John Snow Labs! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = ""Bonjour de John Snow Labs! ""
pos_df = nlu.load('pos_ud_gsd').predict(text)

Results

token_result pos_result
    Bonjour       INTJ
         de        ADP
       John      PROPN
       Snow      PROPN
       Labs      PROPN
          !      PUNCT

Model Information

Model Name:	pos_ud_gsd
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	fr

PREVIOUSExplain Document DL Pipeline for Farsi/Persian

NEXTExplain Document pipeline for Hebrew (explain_document_lg)