- Descriptif :
Traduire l'ensemble de données en fonction des données de statmt.org.
Des versions existent pour les différentes années en utilisant une combinaison de plusieurs sources de données. La base wmt_translate
vous permet de créer votre propre configuration pour choisir votre propre paire données/langue en créant un tfds.translate.wmt.WmtConfig
personnalisé.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Page d'accueil : http://www.statmt.org/wmt17/translation-task.html
Code source :
tfds.translate.Wmt17Translate
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Certaines des configurations wmt ici nécessitent un téléchargement manuel. Veuillez regarder dans wmt.py pour voir le chemin exact (et le nom du fichier) qui doit être téléchargé.Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (configuration par défaut)
Description de la configuration : ensemble de données de tâche de traduction cs-en WMT 2017.
Taille du téléchargement :
1.66 GiB
Taille du jeu de données :
2.91 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 005 |
'train' | 15 851 649 |
'validation' | 2 999 |
- Structure des fonctionnalités :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
cs | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('cs', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/de-fr
Description de la configuration : ensemble de données de tâche de traduction de-en WMT 2017.
Taille du téléchargement :
1.81 GiB
Taille du jeu de données :
1.73 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 004 |
'train' | 5 906 184 |
'validation' | 2 999 |
- Structure des fonctionnalités :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
de | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('de', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/fi-fr
Description de la configuration : ensemble de données de tâche de traduction fi-en WMT 2017.
Taille du téléchargement :
414.10 MiB
Taille du jeu de données :
769.87 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 004 |
'train' | 2 656 542 |
'validation' | 6 000 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
Fi | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('fi', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/lv-fr
Description de la configuration : jeu de données de tâche de traduction WMT 2017 lv-en.
Taille du téléchargement :
161.69 MiB
Taille du jeu de données :
562.26 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 001 |
'train' | 3 567 528 |
'validation' | 2 003 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
LV | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('lv', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/ru-fr
Description de la configuration : jeu de données de la tâche de traduction WMT 2017 ru-en.
Taille du téléchargement :
1.06 GiB
Taille du jeu de données :
11.18 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 001 |
'train' | 25 782 720 |
'validation' | 2 998 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ru | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('ru', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/tr-fr
Description de la configuration : jeu de données de la tâche de traduction WMT 2017 tr-en.
Taille du téléchargement :
59.32 MiB
Taille du jeu de données :
63.74 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 007 |
'train' | 205 756 |
'validation' | 3 000 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
tr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('tr', 'en')
Exemples ( tfds.as_dataframe ):
wmt17_translate/zh-fr
Description de la configuration : ensemble de données de tâche de traduction WMT 2017 zh-en.
Taille du téléchargement :
884.32 MiB
Taille du jeu de données :
6.43 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 001 |
'train' | 25 136 609 |
'validation' | 2 002 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
zh | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('zh', 'en')
Exemples ( tfds.as_dataframe ):