wmt15_traducir

  • Descripción :

Traduzca el conjunto de datos según los datos de statmt.org.

Existen versiones para los diferentes años utilizando una combinación de múltiples fuentes de datos. La base wmt_translate le permite crear su propia configuración para elegir su propio par de datos/idioma creando un tfds.translate.wmt.WmtConfig personalizado.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
@InProceedings{bojar-EtAl:2015:WMT,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Haddow, Barry  and  Huck, Matthias  and  Hokamp, Chris  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2015 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
  month     = {September},
  year      = {2015},
  address   = {Lisbon, Portugal},
  publisher = {Association for Computational Linguistics},
  pages     = {1--46},
  url       = {http://aclweb.org/anthology/W15-3001}
}

wmt15_translate/cs-en (configuración predeterminada)

  • Descripción de la configuración : conjunto de datos de la tarea de traducción WMT 2015 cs-en.

  • Tamaño de descarga : 1.62 GiB

  • Tamaño del conjunto de datos : 2.89 GiB

  • Divisiones :

Separar Ejemplos
'test' 2,656
'train' 15,793,126
'validation' 3,003
  • Estructura de características :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
Traducción
cs Texto cuerda
es Texto cuerda

wmt15_translate/de-en

  • Descripción de la configuración : conjunto de datos de la tarea de traducción de-en de WMT 2015.

  • Tamaño de descarga : 1.62 GiB

  • Tamaño del conjunto de datos : 1.37 GiB

  • Divisiones :

Separar Ejemplos
'test' 2,169
'train' 4,522,998
'validation' 3,003
  • Estructura de características :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
Traducción
Delaware Texto cuerda
es Texto cuerda

wmt15_translate/fi-es

  • Descripción de la configuración : conjunto de datos de la tarea de traducción fi-en de WMT 2015.

  • Tamaño de la descarga : 260.51 MiB

  • Tamaño del conjunto de datos : 623.22 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,370
'train' 2,073,394
'validation' 1,500
  • Estructura de características :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
Traducción
es Texto cuerda
fi Texto cuerda

wmt15_translate/es-fr

  • Descripción de la configuración : conjunto de datos de la tarea de traducción fr-en de WMT 2015.

  • Tamaño de descarga : 6.24 GiB

  • Tamaño del conjunto de datos : 14.65 GiB

  • Divisiones :

Separar Ejemplos
'test' 1,500
'train' 40.853.298
'validation' 4,503
  • Estructura de características :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
Traducción
es Texto cuerda
es Texto cuerda

wmt15_translate/ru-es

  • Descripción de la configuración : conjunto de datos de la tarea de traducción ru-en de WMT 2015.

  • Tamaño de descarga : 1.02 GiB

  • Tamaño del conjunto de datos : 843.90 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,818
'train' 2.495.081
'validation' 3,003
  • Estructura de características :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
Traducción
es Texto cuerda
tu Texto cuerda