ted_hrlr_translate

  • Descriptif :

Ensembles de données dérivés des transcriptions des conférences TED pour comparer des paires de langues similaires où l'une est à haute ressource et l'autre à faible ressource.

@inproceedings{Ye2018WordEmbeddings,
  author  = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
  title   = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
  booktitle = {HLT-NAACL},
  year    = {2018},
  }

ted_hrlr_translate/az_to_en (configuration par défaut)

  • Description de la configuration : ensemble de données de traduction de az à en en texte brut.

  • Taille du jeu de données : 1.61 MiB

  • Fractionnements :

Diviser Exemples
'test' 903
'train' 5 946
'validation' 671
  • Structure des fonctionnalités :
Translation({
    'az': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
az Texte chaîne
fr Texte chaîne

ted_hrlr_translate/aztr_to_en

  • Description de la configuration : ensemble de données de traduction de az_tr en en texte brut.

  • Taille du jeu de données : 42.54 MiB

  • Fractionnements :

Diviser Exemples
'test' 903
'train' 188 396
'validation' 671
  • Structure des fonctionnalités :
Translation({
    'az_tr': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
az_tr Texte chaîne
fr Texte chaîne

ted_hrlr_translate/be_to_en

  • Description de la configuration : jeu de données de traduction de be à en en texte brut.

  • Taille du jeu de données : 1.47 MiB

  • Fractionnements :

Diviser Exemples
'test' 664
'train' 4 509
'validation' 248
  • Structure des fonctionnalités :
Translation({
    'be': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
être Texte chaîne
fr Texte chaîne

ted_hrlr_translate/beru_to_en

  • Description de la configuration : ensemble de données de traduction de be_ru à en en texte brut.

  • Taille du jeu de données : 62.45 MiB

  • Fractionnements :

Diviser Exemples
'test' 664
'train' 212 614
'validation' 248
  • Structure des fonctionnalités :
Translation({
    'be_ru': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
be_ru Texte chaîne
fr Texte chaîne

ted_hrlr_translate/es_to_pt

  • Description de la configuration : jeu de données de traduction de es en pt en texte brut.

  • Taille du jeu de données : 9.62 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 763
'train' 44 938
'validation' 1 016
  • Structure des fonctionnalités :
Translation({
    'es': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
es Texte chaîne
pt Texte chaîne

ted_hrlr_translate/fr_to_pt

  • Description de la configuration : ensemble de données de traduction de fr à pt en texte brut.

  • Taille du jeu de données : 9.74 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 494
'train' 43 873
'validation' 1 131
  • Structure des fonctionnalités :
Translation({
    'fr': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
en Texte chaîne
pt Texte chaîne

ted_hrlr_translate/gl_to_en

  • Description de la configuration : ensemble de données de traduction de gl à en en texte brut.

  • Taille du jeu de données : 2.41 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 007
'train' 10 017
'validation' 682
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'gl': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
fr Texte chaîne
g Texte chaîne

ted_hrlr_translate/glpt_to_en

  • Description de la configuration : jeu de données de traduction de gl_pt en en texte brut.

  • Taille du jeu de données : 12.90 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 007
'train' 61 802
'validation' 682
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'gl_pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
fr Texte chaîne
gl_pt Texte chaîne

ted_hrlr_translate/he_to_pt

  • Description de la configuration : ensemble de données de traduction de he à pt en texte brut.

  • Taille du jeu de données : 11.71 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 623
'train' 48 511
'validation' 1 145
  • Structure des fonctionnalités :
Translation({
    'he': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
il Texte chaîne
pt Texte chaîne

ted_hrlr_translate/it_to_pt

  • Description de la configuration : jeu de données de traduction de celui-ci en pt en texte brut.

  • Taille du jeu de données : 9.94 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 669
'train' 46 259
'validation' 1 162
  • Structure des fonctionnalités :
Translation({
    'it': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
il Texte chaîne
pt Texte chaîne

ted_hrlr_translate/pt_to_en

  • Description de la configuration : ensemble de données de traduction de pt à en en texte brut.

  • Taille du jeu de données : 10.89 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 803
'train' 51 785
'validation' 1 193
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
fr Texte chaîne
pt Texte chaîne

ted_hrlr_translate/ru_to_en

  • Description de la configuration : ensemble de données de traduction de ru à en en texte brut.

  • Taille du jeu de données : 63.22 MiB

  • Fractionnements :

Diviser Exemples
'test' 5 476
'train' 208 106
'validation' 4 805
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
fr Texte chaîne
ru Texte chaîne

ted_hrlr_translate/ru_to_pt

  • Description de la configuration : ensemble de données de traduction de ru à pt en texte brut.

  • Taille du jeu de données : 13.00 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 588
'train' 47 278
'validation' 1 184
  • Structure des fonctionnalités :
Translation({
    'pt': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
pt Texte chaîne
ru Texte chaîne

ted_hrlr_translate/tr_to_en

  • Description de la configuration : ensemble de données de traduction de tr à en en texte brut.

  • Taille du jeu de données : 42.33 MiB

  • Fractionnements :

Diviser Exemples
'test' 5 029
'train' 182 450
'validation' 4 045
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
Traduction
fr Texte chaîne
tr Texte chaîne