Part of Speech for English

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

PROPN
PUNCT
ADJ
NOUN
VERB
DET
ADP
AUX
PRON
PART
SCONJ
NUM
ADV
CCONJ
X
INTJ
SYM

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_ewt", "en") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['Hello from John Snow Labs ! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_ewt", "en")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Hello from John Snow Labs ! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Hello from John Snow Labs ! ""]
token_df = nlu.load('en.pos.ud_ewt').predict(text)
token_df

Results

token    pos

Hello   INTJ
 from    ADP
 John  PROPN
 Snow  PROPN
 Labs  PROPN
    !  PUNCT

Model Information

Model Name:	pos_ud_ewt
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	en

PREVIOUSPart of Speech for Bulgarian

NEXTPart of Speech for Greek