- Descriptif :
Traduire l'ensemble de données en fonction des données de statmt.org.
Des versions existent pour les différentes années en utilisant une combinaison de plusieurs sources de données. La base wmt_translate
vous permet de créer votre propre configuration pour choisir votre propre paire données/langue en créant un tfds.translate.wmt.WmtConfig
personnalisé.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.statmt.org/wmt16/translation-task.html
Code source :
tfds.translate.Wmt16Translate
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Certaines des configurations wmt ici nécessitent un téléchargement manuel. Veuillez regarder dans wmt.py pour voir le chemin exact (et le nom du fichier) qui doit être téléchargé.Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (configuration par défaut)
Description de la configuration : jeu de données de tâche de traduction WMT 2016 cs-en.
Taille du téléchargement :
1.57 GiB
Taille du jeu de données :
7.56 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 999 |
'train' | 52 335 651 |
'validation' | 2 656 |
- Structure des fonctionnalités :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
cs | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('cs', 'en')
Exemples ( tfds.as_dataframe ):
wmt16_translate/de-en
Description de la configuration : ensemble de données de tâche de traduction de-en WMT 2016.
Taille du téléchargement :
1.57 GiB
Taille du jeu de données :
1.38 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 999 |
'train' | 4 548 885 |
'validation' | 2 169 |
- Structure des fonctionnalités :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
de | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('de', 'en')
Exemples ( tfds.as_dataframe ):
wmt16_translate/fi-fr
Description de la configuration : ensemble de données de tâche de traduction fi-en WMT 2016.
Taille du téléchargement :
260.51 MiB
Taille du jeu de données :
624.31 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 000 |
'train' | 2 073 394 |
'validation' | 1 370 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
Fi | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('fi', 'en')
Exemples ( tfds.as_dataframe ):
wmt16_translate/ro-fr
Description de la configuration : jeu de données de la tâche de traduction ro-en WMT 2016.
Taille du téléchargement :
273.83 MiB
Taille du jeu de données :
194.35 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 999 |
'train' | 610 320 |
'validation' | 1 999 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ro | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('ro', 'en')
Exemples ( tfds.as_dataframe ):
wmt16_translate/ru-fr
Description de la configuration : jeu de données de la tâche de traduction WMT 2016 ru-en.
Taille du téléchargement :
993.38 MiB
Taille du jeu de données :
854.44 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 998 |
'train' | 2 516 162 |
'validation' | 2 818 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ru | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('ru', 'en')
Exemples ( tfds.as_dataframe ):
wmt16_translate/tr-fr
Description de la configuration : jeu de données de la tâche de traduction WMT 2016 tr-en.
Taille du téléchargement :
59.32 MiB
Taille du jeu de données :
63.21 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 000 |
'train' | 205 756 |
'validation' | 1 001 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
tr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('tr', 'en')
Exemples ( tfds.as_dataframe ):