- Descriptif :
Traduire l'ensemble de données en fonction des données de statmt.org.
Des versions existent pour les différentes années en utilisant une combinaison de plusieurs sources de données. La base wmt_translate
vous permet de créer votre propre configuration pour choisir votre propre paire données/langue en créant un tfds.translate.wmt.WmtConfig
personnalisé.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.statmt.org/wmt15/translation-task.html
Code source :
tfds.translate.Wmt15Translate
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Certaines des configurations wmt ici nécessitent un téléchargement manuel. Veuillez regarder dans wmt.py pour voir le chemin exact (et le nom du fichier) qui doit être téléchargé.Mise en cache automatique ( documentation ): Non
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
wmt15_translate/cs-en (configuration par défaut)
Description de la configuration : jeu de données de la tâche de traduction WMT 2015 cs-en.
Taille du téléchargement :
1.62 GiB
Taille du jeu de données :
2.89 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 656 |
'train' | 15 793 126 |
'validation' | 3 003 |
- Structure des fonctionnalités :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
cs | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('cs', 'en')
Exemples ( tfds.as_dataframe ):
wmt15_translate/de-fr
Description de la configuration : jeu de données de tâche de traduction WMT 2015 de-en.
Taille du téléchargement :
1.62 GiB
Taille du jeu de données :
1.37 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 169 |
'train' | 4 522 998 |
'validation' | 3 003 |
- Structure des fonctionnalités :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
de | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('de', 'en')
Exemples ( tfds.as_dataframe ):
wmt15_translate/fi-fr
Description de la configuration : ensemble de données de tâche de traduction fi-en WMT 2015.
Taille du téléchargement :
260.51 MiB
Taille du jeu de données :
623.22 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 370 |
'train' | 2 073 394 |
'validation' | 1 500 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
Fi | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('fi', 'en')
Exemples ( tfds.as_dataframe ):
wmt15_translate/fr-en
Description de la configuration : Ensemble de données de tâche de traduction WMT 2015 fr-en.
Taille du téléchargement :
6.24 GiB
Taille du jeu de données :
14.65 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 500 |
'train' | 40 853 298 |
'validation' | 4 503 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
en | Texte | chaîne de caractères |
Touches supervisées (Voir doc
as_supervised
):('fr', 'en')
Exemples ( tfds.as_dataframe ):
wmt15_translate/ru-fr
Description de la configuration : jeu de données de la tâche de traduction WMT 2015 ru-en.
Taille du téléchargement :
1.02 GiB
Taille du jeu de données :
843.90 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 818 |
'train' | 2 495 081 |
'validation' | 3 003 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ru | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('ru', 'en')
Exemples ( tfds.as_dataframe ):