XLM-RoBERTa Large (xlm_roberta_large)

Description

XLM-RoBERTa is a scaled cross-lingual sentence encoder. It is trained on 2.5T of data across 100 languages data filtered from Common Crawl. XLM-R achieves state-of-the-arts results on multiple cross-lingual benchmarks.

The XLM-RoBERTa model was proposed in Unsupervised Cross-lingual Representation Learning at Scale by Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco GuzmÃ¡n, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov.

It is based on Facebook’s RoBERTa model released in 2019. It is a large multi-lingual language model, trained on 2.5TB of filtered CommonCrawl data.

Predicted Entities

Download Copy S3 URI

How to use

embeddings = XlmRoBertaEmbeddings.pretrained("xlm_roberta_large", "xx") \
.setInputCols("sentence", "token") \
.setOutputCol("embeddings")

val embeddings = XlmRoBertaEmbeddings.pretrained("xlm_roberta_large", "xx")
.setInputCols("sentence", "token")
.setOutputCol("embeddings")
val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, tokenizer, embeddings))

import nlu
nlu.load("xx.embed.xlm_roberta_large").predict("""Put your text here.""")

Model Information

Model Name:	xlm_roberta_large
Compatibility:	Spark NLP 3.3.0+
License:	Open Source
Edition:	Official
Input Labels:	[token, sentence]
Output Labels:	[embeddings]
Language:	xx
Case sensitive:	true

Data Source

https://huggingface.co/xlm-roberta-large

PREVIOUSXLM-RoBERTa Base for Luganda (xlm_roberta_base_finetuned_luganda)

NEXTXLM-RoBERTa Token Classification Base - NER CoNLL (xlm_roberta_base_token_classifier_conll03)