wmt17_translate

  • Descriptif :

Traduire l'ensemble de données en fonction des données de statmt.org.

Des versions existent pour les différentes années en utilisant une combinaison de plusieurs sources de données. La base wmt_translate vous permet de créer votre propre configuration pour choisir votre propre paire données/langue en créant un tfds.translate.wmt.WmtConfig personnalisé.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Page d'accueil : http://www.statmt.org/wmt17/translation-task.html

  • Code source : tfds.translate.Wmt17Translate

  • Versions :

    • 1.0.0 (par défaut) : aucune note de version.
  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Certaines des configurations wmt ici nécessitent un téléchargement manuel. Veuillez regarder dans wmt.py pour voir le chemin exact (et le nom du fichier) qui doit être téléchargé.

  • Figure ( tfds.show_examples ) : non pris en charge.

  • Citation :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (configuration par défaut)

  • Description de la configuration : ensemble de données de tâche de traduction cs-en WMT 2017.

  • Taille du téléchargement : 1.66 GiB

  • Taille du jeu de données : 2.91 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 3 005
'train' 15 851 649
'validation' 2 999
  • Structure des fonctionnalités :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
cs Texte chaîne de caractères
fr Texte chaîne de caractères

wmt17_translate/de-fr

  • Description de la configuration : ensemble de données de tâche de traduction de-en WMT 2017.

  • Taille du téléchargement : 1.81 GiB

  • Taille du jeu de données : 1.73 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 3 004
'train' 5 906 184
'validation' 2 999
  • Structure des fonctionnalités :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
de Texte chaîne de caractères
fr Texte chaîne de caractères

wmt17_translate/fi-fr

  • Description de la configuration : ensemble de données de tâche de traduction fi-en WMT 2017.

  • Taille du téléchargement : 414.10 MiB

  • Taille du jeu de données : 769.87 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 6 004
'train' 2 656 542
'validation' 6 000
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
Fi Texte chaîne de caractères

wmt17_translate/lv-fr

  • Description de la configuration : jeu de données de tâche de traduction WMT 2017 lv-en.

  • Taille du téléchargement : 161.69 MiB

  • Taille du jeu de données : 562.26 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 2 001
'train' 3 567 528
'validation' 2 003
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
LV Texte chaîne de caractères

wmt17_translate/ru-fr

  • Description de la configuration : jeu de données de la tâche de traduction WMT 2017 ru-en.

  • Taille du téléchargement : 1.06 GiB

  • Taille du jeu de données : 11.18 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 3 001
'train' 25 782 720
'validation' 2 998
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
ru Texte chaîne de caractères

wmt17_translate/tr-fr

  • Description de la configuration : jeu de données de la tâche de traduction WMT 2017 tr-en.

  • Taille du téléchargement : 59.32 MiB

  • Taille du jeu de données : 63.74 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 3 007
'train' 205 756
'validation' 3 000
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
tr Texte chaîne de caractères

wmt17_translate/zh-fr

  • Description de la configuration : ensemble de données de tâche de traduction WMT 2017 zh-en.

  • Taille du téléchargement : 884.32 MiB

  • Taille du jeu de données : 6.43 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 2 001
'train' 25 136 609
'validation' 2 002
  • Structure des fonctionnalités :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
Traduction
fr Texte chaîne de caractères
zh Texte chaîne de caractères