tatoeba

  • Descripción :

Estos datos son extraídos del corpus Tatoeba, con fecha sábado 17/11/2018.

Para cada idioma, hemos seleccionado 1000 oraciones en inglés y sus traducciones, si están disponibles. Consulte este documento para obtener una descripción de los idiomas, sus familias y escrituras, así como los resultados de referencia.

Tenga en cuenta que las oraciones en inglés no son idénticas para todos los pares de idiomas. Esto significa que los resultados no son directamente comparables entre idiomas.

FeaturesDict({
    'source_language': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_language': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
lenguaje fuente Texto cadena
oración_origen Texto cadena
lengua de llegada Texto cadena
frase_objetivo Texto cadena
@article{tatoeba,
          title={Massively Multilingual Sentence Embeddings for Zero-Shot
                   Cross-Lingual Transfer and Beyond},
          author={Mikel, Artetxe and Holger, Schwenk,},
          journal={arXiv:1812.10464v2},
          year={2018}
}

@InProceedings{TIEDEMANN12.463,
  author = {J{\"o}rg}rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
}

tatoeba/tatoeba_af (configuración predeterminada)

  • Tamaño de la descarga : 58.24 KiB

  • Tamaño del conjunto de datos : 162.74 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_ar

  • Tamaño de la descarga : 70.95 KiB

  • Tamaño del conjunto de datos : 175.46 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_bg

  • Tamaño de la descarga : 99.88 KiB

  • Tamaño del conjunto de datos : 204.64 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_bn

  • Tamaño de la descarga : 89.55 KiB

  • Tamaño del conjunto de datos : 194.24 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_de

  • Tamaño de la descarga : 103.09 KiB

  • Tamaño del conjunto de datos : 207.93 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_el

  • Tamaño de la descarga : 77.11 KiB

  • Tamaño del conjunto de datos : 181.65 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_es

  • Tamaño de la descarga : 70.57 KiB

  • Tamaño del conjunto de datos : 175.12 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_et

  • Tamaño de la descarga : 58.33 KiB

  • Tamaño del conjunto de datos : 162.85 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_eu

  • Tamaño de la descarga : 64.52 KiB

  • Tamaño del conjunto de datos : 169.02 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_fa

  • Tamaño de la descarga : 91.52 KiB

  • Tamaño del conjunto de datos : 196.15 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_fi

  • Tamaño de la descarga : 73.90 KiB

  • Tamaño del conjunto de datos : 178.47 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_fr

  • Tamaño de la descarga : 78.14 KiB

  • Tamaño del conjunto de datos : 182.68 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_he

  • Tamaño de la descarga : 81.54 KiB

  • Tamaño del conjunto de datos : 186.15 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_hi

  • Tamaño de la descarga : 119.69 KiB

  • Tamaño del conjunto de datos : 224.89 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_hu

  • Tamaño de la descarga : 67.27 KiB

  • Tamaño del conjunto de datos : 171.78 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_id

  • Tamaño de la descarga : 73.09 KiB

  • Tamaño del conjunto de datos : 177.61 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_it

  • Tamaño de la descarga : 64.29 KiB

  • Tamaño del conjunto de datos : 168.81 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_ja

  • Tamaño de la descarga : 90.90 KiB

  • Tamaño del conjunto de datos : 195.53 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_jv

  • Tamaño de la descarga : 13.59 KiB

  • Tamaño del conjunto de datos : 35.01 KiB

  • Divisiones :

Dividir Ejemplos
'train' 205

tatoeba/tatoeba_ka

  • Tamaño de la descarga : 70.47 KiB

  • Tamaño del conjunto de datos : 148.67 KiB

  • Divisiones :

Dividir Ejemplos
'train' 746

tatoeba/tatoeba_kk

  • Tamaño de la descarga : 46.07 KiB

  • Tamaño del conjunto de datos : 106.25 KiB

  • Divisiones :

Dividir Ejemplos
'train' 575

tatoeba/tatoeba_ko

  • Tamaño de la descarga : 77.28 KiB

  • Tamaño del conjunto de datos : 181.88 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_ml

  • Tamaño de la descarga : 92.50 KiB

  • Tamaño del conjunto de datos : 165.14 KiB

  • Divisiones :

Dividir Ejemplos
'train' 687

tatoeba/tatoeba_mr

  • Tamaño de la descarga : 98.19 KiB

  • Tamaño del conjunto de datos : 202.96 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_nl

  • Tamaño de la descarga : 71.55 KiB

  • Tamaño del conjunto de datos : 176.10 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_pt

  • Tamaño de la descarga : 73.42 KiB

  • Tamaño del conjunto de datos : 177.95 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_ru

  • Tamaño de la descarga : 90.30 KiB

  • Tamaño del conjunto de datos : 194.92 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_sw

  • Tamaño de la descarga : 19.99 KiB

  • Tamaño del conjunto de datos : 60.75 KiB

  • Divisiones :

Dividir Ejemplos
'train' 390

tatoeba/tatoeba_ta

  • Tamaño de la descarga : 38.52 KiB

  • Tamaño del conjunto de datos : 70.93 KiB

  • Divisiones :

Dividir Ejemplos
'train' 307

tatoeba/tatoeba_te

  • Tamaño de la descarga : 24.55 KiB

  • Tamaño del conjunto de datos : 49.07 KiB

  • Divisiones :

Dividir Ejemplos
'train' 234

tatoeba/tatoeba_th

  • Tamaño de la descarga : 61.72 KiB

  • Tamaño del conjunto de datos : 119.32 KiB

  • Divisiones :

Dividir Ejemplos
'train' 548

tatoeba/tatoeba_tl

  • Tamaño de la descarga : 66.54 KiB

  • Tamaño del conjunto de datos : 171.04 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_tr

  • Tamaño de la descarga : 70.20 KiB

  • Tamaño del conjunto de datos : 174.70 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_ur

  • Tamaño de la descarga : 86.63 KiB

  • Tamaño del conjunto de datos : 191.20 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_vi

  • Tamaño de la descarga : 89.26 KiB

  • Tamaño del conjunto de datos : 193.89 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000

tatoeba/tatoeba_zh

  • Tamaño de la descarga : 67.32 KiB

  • Tamaño del conjunto de datos : 171.85 KiB

  • Divisiones :

Dividir Ejemplos
'train' 1,000