opus

  • Descriptif :

OPUS est une collection de textes traduits du Web.

Créez votre propre configuration pour choisir la paire données/langue à charger.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
de Texte chaîne de caractères
fr Texte chaîne de caractères
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medical (config par défaut)

  • Description de la configuration : documents médicaux

  • Taille du téléchargement : 34.29 MiB

  • Taille du jeu de données : 188.85 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 1 108 752

opus/loi

  • Description de la configuration : documents juridiques

  • Taille du téléchargement : 46.99 MiB

  • Taille du jeu de données : 214.44 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 719 372

opus/coran

  • Description de la configuration : documents coraniques

  • Taille du téléchargement : 35.42 MiB

  • Taille du jeu de données : 117.54 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 537 128

opus/informatique

  • Description de la configuration : Documents informatiques

  • Taille du téléchargement : 10.33 MiB

  • Taille du jeu de données : 42.51 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 347 817

opus/sous-titres

  • Description de la configuration : sous-titres des documents

  • Taille du téléchargement : 677.64 MiB

  • Taille du jeu de données : 2.01 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 22 512 639