- Descrizione :
Traduci il set di dati in base ai dati di statmt.org.
Esistono versioni per i diversi anni utilizzando una combinazione di più fonti di dati. La base wmt_translate
ti consente di creare la tua configurazione per scegliere la tua coppia dati/lingua creando un tfds.translate.wmt.WmtConfig
personalizzato.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Pagina iniziale : http://www.statmt.org/wmt17/translation-task.html
Codice sorgente :
tfds.translate.Wmt17Translate
Versioni :
-
1.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Alcune delle configurazioni wmt qui richiedono un download manuale. Si prega di guardare in wmt.py per vedere il percorso esatto (e il nome del file) che deve essere scaricato.Figura ( tfds.show_examples ): non supportato.
Citazione :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (configurazione predefinita)
Descrizione della configurazione : set di dati dell'attività di traduzione cs-en WMT 2017.
Dimensione del download :
1.66 GiB
Dimensione del set di dati:
2.91 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.005 |
'train' | 15.851.649 |
'validation' | 2.999 |
- Struttura delle caratteristiche :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
cs | Testo | corda | ||
it | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('cs', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/de-en
Descrizione della configurazione : set di dati dell'attività di traduzione de-en WMT 2017.
Dimensione del download :
1.81 GiB
Dimensione del set di dati:
1.73 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.004 |
'train' | 5.906.184 |
'validation' | 2.999 |
- Struttura delle caratteristiche :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
de | Testo | corda | ||
it | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('de', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/fi-en
Descrizione della configurazione : set di dati dell'attività di traduzione fi-en WMT 2017.
Dimensione del download :
414.10 MiB
Dimensione del set di dati:
769.87 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.004 |
'train' | 2.656.542 |
'validation' | 6.000 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | corda | ||
fi | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('fi', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/lv-en
Descrizione della configurazione : set di dati dell'attività di traduzione lv-en WMT 2017.
Dimensione del download :
161.69 MiB
Dimensione del set di dati:
562.26 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.001 |
'train' | 3.567.528 |
'validation' | 2.003 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | corda | ||
liv | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('lv', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/ru-en
Descrizione della configurazione : set di dati dell'attività di traduzione ru-en WMT 2017.
Dimensione del download :
1.06 GiB
Dimensione del set di dati:
11.18 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.001 |
'train' | 25.782.720 |
'validation' | 2.998 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | corda | ||
ru | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('ru', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/tr-en
Descrizione della configurazione : set di dati dell'attività di traduzione tr-en WMT 2017.
Dimensione del download :
59.32 MiB
Dimensione del set di dati:
63.74 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.007 |
'train' | 205.756 |
'validation' | 3.000 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | corda | ||
tr | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('tr', 'en')
Esempi ( tfds.as_dataframe ):
wmt17_translate/zh-en
Descrizione della configurazione : set di dati dell'attività di traduzione WMT 2017 zh-en.
Dimensione del download :
884.32 MiB
Dimensione del set di dati:
6.43 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.001 |
'train' | 25.136.609 |
'validation' | 2.002 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | corda | ||
zh | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('zh', 'en')
Esempi ( tfds.as_dataframe ):