para_crawl

  • Descriptif :

Corpus parallèles à l'échelle du Web pour les langues européennes officielles.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg (configuration par défaut)

  • Description de la configuration : ensemble de données de traduction de l'anglais vers le bg.

  • Taille du téléchargement : 98.94 MiB

  • Taille du jeu de données : 362.46 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 039 885
  • Structure des fonctionnalités :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
bg Texte chaîne de caractères
fr Texte chaîne de caractères

para_crawl/encs

  • Description de la configuration : ensemble de données de traduction de l'anglais vers cs.

  • Taille du téléchargement : 187.31 MiB

  • Taille du jeu de données : 666.34 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 2 981 949
  • Structure des fonctionnalités :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
cs Texte chaîne de caractères
fr Texte chaîne de caractères

para_crawl/enda

  • Description de la configuration : ensemble de données de traduction de l'anglais vers da.

  • Taille du téléchargement : 174.34 MiB

  • Taille du jeu de données : 619.77 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 2 414 895
  • Structure des fonctionnalités :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
un Texte chaîne de caractères
fr Texte chaîne de caractères

para_crawl/ende

  • Description de la configuration : ensemble de données de traduction de l'anglais vers l'allemand.

  • Taille du téléchargement : 1.22 GiB

  • Taille du jeu de données : 4.04 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 16 264 448
  • Structure des fonctionnalités :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
de Texte chaîne de caractères
fr Texte chaîne de caractères

para_crawl/enel

  • Description de la configuration : jeu de données de traduction de l'anglais vers l'el.

  • Taille du téléchargement : 184.59 MiB

  • Taille du jeu de données : 698.75 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 985 233
  • Structure des fonctionnalités :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
el Texte chaîne de caractères
fr Texte chaîne de caractères

para_crawl/enes

  • Description de la configuration : jeu de données de traduction de l'anglais vers l'es.

  • Taille du téléchargement : 1.82 GiB

  • Taille du jeu de données : 6.23 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 21 987 267
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
es Texte chaîne de caractères

para_crawl/enet

  • Description de la configuration : ensemble de données de traduction de l'anglais vers et.

  • Taille du téléchargement : 66.91 MiB

  • Taille du jeu de données : 209.16 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 853 422
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
et Texte chaîne de caractères

para_crawl/enfi

  • Description de la configuration : jeu de données de traduction de l'anglais vers fi.

  • Taille du téléchargement : 151.83 MiB

  • Taille du jeu de données : 543.85 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 2 156 069
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
Fi Texte chaîne de caractères

para_crawl/enfr

  • Description de la configuration : ensemble de données de traduction de l'anglais vers le fr.

  • Taille du téléchargement : 2.63 GiB

  • Taille du jeu de données : 9.04 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 31 374 161
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
en Texte chaîne de caractères

para_crawl/enga

  • Description de la configuration : ensemble de données de traduction de l'anglais vers ga.

  • Taille du téléchargement : 28.03 MiB

  • Taille du jeu de données : 107.09 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 357 399
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
Géorgie Texte chaîne de caractères

para_crawl/enhr

  • Description de la configuration : ensemble de données de traduction de l'anglais vers hr.

  • Taille du téléchargement : 80.97 MiB

  • Taille du jeu de données : 256.37 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 002 053
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
heure Texte chaîne de caractères

para_crawl/enhu

  • Description de la configuration : ensemble de données de traduction de l'anglais vers l'hu.

  • Taille du téléchargement : 114.24 MiB

  • Taille du jeu de données : 421.40 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 901 342
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
heu Texte chaîne de caractères

para_crawl/enit

  • Description de la configuration : ensemble de données de traduction de l'anglais vers celui-ci.

  • Taille du téléchargement : 1017.30 MiB

  • Taille du jeu de données : 3.36 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 12 162 239
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
ce Texte chaîne de caractères

para_crawl/enlt

  • Description de la configuration : ensemble de données de traduction de l'anglais vers lt.

  • Taille du téléchargement : 63.28 MiB

  • Taille du jeu de données : 204.70 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 844 643
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
ça Texte chaîne de caractères

para_crawl/enlv

  • Description de la configuration : ensemble de données de traduction de l'anglais vers le niv.

  • Taille du téléchargement : 45.17 MiB

  • Taille du jeu de données : 147.09 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 553 060
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
LV Texte chaîne de caractères

para_crawl/enmt

  • Description de la configuration : ensemble de données de traduction de l'anglais vers mt.

  • Taille du téléchargement : 18.15 MiB

  • Taille du jeu de données : 54.36 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 195 502
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
mt Texte chaîne de caractères

para_crawl/ennl

  • Description de la configuration : ensemble de données de traduction de l'anglais vers nl.

  • Taille du téléchargement : 400.63 MiB

  • Taille du jeu de données : 1.40 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 5 659 268
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
NL Texte chaîne de caractères

para_crawl/enpl

  • Description de la configuration : jeu de données de traduction de l'anglais vers le pl.

  • Taille du téléchargement : 257.90 MiB

  • Taille du jeu de données : 885.63 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 3 503 276
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
PL Texte chaîne de caractères

para_crawl/enpt

  • Description de la configuration : jeu de données de traduction de l'anglais vers pt.

  • Taille du téléchargement : 608.62 MiB

  • Taille du jeu de données : 2.05 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 8 141 940
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
pt Texte chaîne de caractères

para_crawl/enro

  • Description de la configuration : jeu de données de traduction de l'anglais vers le ro.

  • Taille du téléchargement : 153.24 MiB

  • Taille du jeu de données : 534.34 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 952 043
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
ro Texte chaîne de caractères

para_crawl/ensk

  • Description de la configuration : ensemble de données de traduction de l'anglais vers le sk.

  • Taille du téléchargement : 96.61 MiB

  • Taille du jeu de données : 352.91 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 591 831
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
sk Texte chaîne de caractères

para_crawl/ensl

  • Description de la configuration : ensemble de données de traduction de l'anglais vers sl.

  • Taille du téléchargement : 62.02 MiB

  • Taille du jeu de données : 187.66 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 660 161
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
sl Texte chaîne de caractères

para_crawl/ensv

  • Description de la configuration : ensemble de données de traduction de l'anglais vers sv.

  • Taille du téléchargement : 262.76 MiB

  • Taille du jeu de données : 905.72 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 3 476 729
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
sv Texte chaîne de caractères