Named Entity Recognition (NER) Model in Norwegian (Norne 840B 300)

Description

Norne is a Named Entity Recognition (or NER) model of Norvegian, meaning it annotates text to find features like the names of people, places, and organizations. This NER model does not read words directly but instead reads word embeddings, which represent words as points such that more semantically similar words are closer together. Norne 840B 300 is trained with GloVe 840B 300 word embeddings, so be sure to use the same embeddings in the pipeline.

Predicted Entities

Persons-PER, Locations-LOC, Organizations-ORG, Derived-DRV, Product-PROD, Geo-political Entities Location-GPE_LOC, Geo-political Entities Organization-GPE-ORG, Event-EVT.

Live Demo Open in Colab Download

How to use

...
embeddings = WordEmbeddingsModel.pretrained("glove_840B_300", lang="xx") \
  .setInputCols(["document", "token"]) \
  .setOutputCol("embeddings")
ner_model = NerDLModel.pretrained("norne_840B_300", "no") \
    .setInputCols(["document", "token", "embeddings"]) \
    .setOutputCol("ner")
...    
nlp_pipeline = Pipeline(stages=[document_assembler, sentence_detector, tokenizer, embeddings, ner_model, ner_converter])
pipeline_model = nlp_pipeline.fit(spark.createDataFrame([['']]).toDF('text'))

result = pipeline_model.transform(spark.createDataFrame(pd.DataFrame({'text': ["""William Henry Gates III (født 28. oktober 1955) er en amerikansk forretningsmagnat, programvareutvikler, investor og filantrop. Han er mest kjent som medgründer av Microsoft Corporation. I løpet av sin karriere hos Microsoft hadde Gates stillingene som styreleder, administrerende direktør (CEO), president og sjef programvarearkitekt, samtidig som han var den største individuelle aksjonæren fram til mai 2014. Han er en av de mest kjente gründere og pionerene i mikrodatarevolusjon på 1970- og 1980-tallet. Han er født og oppvokst i Seattle, Washington, og grunnla Microsoft sammen med barndomsvennen Paul Allen i 1975, i Albuquerque, New Mexico; det fortsatte å bli verdens største programvare for datamaskinprogramvare. Gates ledet selskapet som styreleder og administrerende direktør til han gikk av som konsernsjef i januar 2000, men han forble styreleder og ble sjef for programvarearkitekt. I løpet av slutten av 1990-tallet hadde Gates blitt kritisert for sin forretningstaktikk, som har blitt ansett som konkurransedyktig. Denne uttalelsen er opprettholdt av en rekke dommer. I juni 2006 kunngjorde Gates at han skulle gå over til en deltidsrolle hos Microsoft og på heltid ved Bill & Melinda Gates Foundation, den private veldedige stiftelsen som han og kona, Melinda Gates, opprettet i 2000. [ 9] Han overførte gradvis arbeidsoppgavene sine til Ray Ozzie og Craig Mundie. Han trakk seg som styreleder for Microsoft i februar 2014 og tiltrådte et nytt verv som teknologirådgiver for å støtte den nyutnevnte administrerende direktøren Satya Nadella."""]})))
...
val embeddings = WordEmbeddingsModel.pretrained('glove_840B_300', lang='xx')
  .setInputCols(Array('document', 'token'))
  .setOutputCol('embeddings')
val ner_model = NerDLModel.pretrained("norne_840B_300", "no")
    .setInputCols(Array("document", "token", "embeddings"))
    .setOutputCol("ner")
...
val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, tokenizer, embeddings, ner_model, ner_converter))

val result = pipeline.fit(Seq.empty["William Henry Gates III (født 28. oktober 1955) er en amerikansk forretningsmagnat, programvareutvikler, investor og filantrop. Han er mest kjent som medgründer av Microsoft Corporation. I løpet av sin karriere hos Microsoft hadde Gates stillingene som styreleder, administrerende direktør (CEO), president og sjef programvarearkitekt, samtidig som han var den største individuelle aksjonæren fram til mai 2014. Han er en av de mest kjente gründere og pionerene i mikrodatarevolusjon 1970- og 1980-tallet. Han er født og oppvokst i Seattle, Washington, og grunnla Microsoft sammen med barndomsvennen Paul Allen i 1975, i Albuquerque, New Mexico; det fortsatte å bli verdens største programvare for datamaskinprogramvare. Gates ledet selskapet som styreleder og administrerende direktør til han gikk av som konsernsjef i januar 2000, men han forble styreleder og ble sjef for programvarearkitekt. I løpet av slutten av 1990-tallet hadde Gates blitt kritisert for sin forretningstaktikk, som har blitt ansett som konkurransedyktig. Denne uttalelsen er opprettholdt av en rekke dommer. I juni 2006 kunngjorde Gates at han skulle over til en deltidsrolle hos Microsoft og heltid ved Bill & Melinda Gates Foundation, den private veldedige stiftelsen som han og kona, Melinda Gates, opprettet i 2000. [ 9] Han overførte gradvis arbeidsoppgavene sine til Ray Ozzie og Craig Mundie. Han trakk seg som styreleder for Microsoft i februar 2014 og tiltrådte et nytt verv som teknologirådgiver for å støtte den nyutnevnte administrerende direktøren Satya Nadella."].toDS.toDF("text")).transform(data)
import nlu
text = ["""William Henry Gates III (født 28. oktober 1955) er en amerikansk forretningsmagnat, programvareutvikler, investor og filantrop. Han er mest kjent som medgründer av Microsoft Corporation. I løpet av sin karriere hos Microsoft hadde Gates stillingene som styreleder, administrerende direktør (CEO), president og sjef programvarearkitekt, samtidig som han var den største individuelle aksjonæren fram til mai 2014. Han er en av de mest kjente gründere og pionerene i mikrodatarevolusjon på 1970- og 1980-tallet. Han er født og oppvokst i Seattle, Washington, og grunnla Microsoft sammen med barndomsvennen Paul Allen i 1975, i Albuquerque, New Mexico; det fortsatte å bli verdens største programvare for datamaskinprogramvare. Gates ledet selskapet som styreleder og administrerende direktør til han gikk av som konsernsjef i januar 2000, men han forble styreleder og ble sjef for programvarearkitekt. I løpet av slutten av 1990-tallet hadde Gates blitt kritisert for sin forretningstaktikk, som har blitt ansett som konkurransedyktig. Denne uttalelsen er opprettholdt av en rekke dommer. I juni 2006 kunngjorde Gates at han skulle gå over til en deltidsrolle hos Microsoft og på heltid ved Bill & Melinda Gates Foundation, den private veldedige stiftelsen som han og kona, Melinda Gates, opprettet i 2000. Han overførte gradvis arbeidsoppgavene sine til Ray Ozzie og Craig Mundie. Han trakk seg som styreleder for Microsoft i februar 2014 og tiltrådte et nytt verv som teknologirådgiver for å støtte den nyutnevnte administrerende direktøren Satya Nadella."""]

ner_df = nlu.load('no.ner.norne.glove.840B_300').predict(text, output_level = "chunk")
ner_df[["entities", "entities_confidence"]]

Results

+-------------------------------+---------+
|chunk             |ner_label|
+-------------------------------+---------+
|William Henry Gates III    |PER   |
|Microsoft Corporation     |ORG   |
|Microsoft           |ORG   |
|Gates             |PER   |
|CEO              |PER   |
|Seattle            |GPE_LOC |
|Washington           |GPE_LOC |
|Microsoft           |ORG   |
|Paul Allen           |PER   |
|Albuquerque          |GPE_LOC |
|New Mexico           |GPE_LOC |
|Gates             |PER   |
|Gates             |PER   |
|Gates             |PER   |
|Microsoft           |ORG   |
|Bill & Melinda Gates Foundation|ORG   |
|Melinda Gates         |PER   |
|Ray Ozzie           |PER   |
|Craig Mundie          |PER   |
|Microsoft           |ORG   |
+-------------------------------+---------+

Model Information

Model Name: norne_840B_300
Type: ner
Compatibility: Spark NLP 2.5.0+
Edition: Official
License: Open Source
Input Labels: [sentence, token, embeddings]
Output Labels: [ner]
Language: no
Case sensitive: false

Data Source

The detailed information can be found from https://www.aclweb.org/anthology/2020.lrec-1.559.pdf