NER Pipeline for Hindi+English

Description

This pretrained pipeline is built on bert_token_classifier_hi_en_ner.

Live Demo Open in Colab Download Copy S3 URI

How to use

pipeline = PretrainedPipeline("bert_token_classifier_hi_en_ner_pipeline", lang = "hi")

pipeline.annotate("रिलायंस इंडस्ट्रीज़ लिमिटेड (Reliance Industries Limited) एक भारतीय संगुटिका नियंत्रक कंपनी है, जिसका मुख्यालय मुंबई, महाराष्ट्र (Maharashtra) में स्थित है।रतन नवल टाटा (28 दिसंबर 1937, को मुम्बई (Mumbai), में जन्मे) टाटा समुह के वर्तमान अध्यक्ष, जो भारत की सबसे बड़ी व्यापारिक समूह है, जिसकी स्थापना जमशेदजी टाटा ने की और उनके परिवार की पीढियों ने इसका विस्तार किया और इसे दृढ़ बनाया।")
val pipeline = new PretrainedPipeline("bert_token_classifier_hi_en_ner_pipeline", lang = "hi")

val pipeline.annotate("रिलायंस इंडस्ट्रीज़ लिमिटेड (Reliance Industries Limited) एक भारतीय संगुटिका नियंत्रक कंपनी है, जिसका मुख्यालय मुंबई, महाराष्ट्र (Maharashtra) में स्थित है।रतन नवल टाटा (28 दिसंबर 1937, को मुम्बई (Mumbai), में जन्मे) टाटा समुह के वर्तमान अध्यक्ष, जो भारत की सबसे बड़ी व्यापारिक समूह है, जिसकी स्थापना जमशेदजी टाटा ने की और उनके परिवार की पीढियों ने इसका विस्तार किया और इसे दृढ़ बनाया।")

Results

+---------------------------+------------+
|chunk                      |ner_label   |
+---------------------------+------------+
|रिलायंस इंडस्ट्रीज़ लिमिटेड          |ORGANISATION|
|Reliance Industries Limited|ORGANISATION|
|भारतीय                      |PLACE       |
|मुंबई                        |PLACE       |
|महाराष्ट्र                      |PLACE       |
|Maharashtra)               |PLACE       |
|नवल टाटा                    |PERSON      |
|मुम्बई                       |PLACE       |
|Mumbai                     |PLACE       |
|टाटा समुह                    |ORGANISATION|
|भारत                       |PLACE       |
|जमशेदजी टाटा                 |PERSON      |
+---------------------------+------------+

Model Information

Model Name: bert_token_classifier_hi_en_ner_pipeline
Type: pipeline
Compatibility: Spark NLP 3.4.1+
License: Open Source
Edition: Official
Language: hi
Size: 665.8 MB

Included Models

  • DocumentAssembler
  • SentenceDetector
  • TokenizerModel
  • BertForTokenClassification
  • NerConverter
  • Finisher