- Descripción :
Estos datos son extraídos del corpus Tatoeba, con fecha sábado 17/11/2018.
Para cada idioma, hemos seleccionado 1000 oraciones en inglés y sus traducciones, si están disponibles. Consulte este documento para obtener una descripción de los idiomas, sus familias y escrituras, así como los resultados de referencia.
Tenga en cuenta que las oraciones en inglés no son idénticas para todos los pares de idiomas. Esto significa que los resultados no son directamente comparables entre idiomas.
Página de inicio: http://opus.nlpl.eu/Tatoeba.php
Código fuente :
tfds.datasets.tatoeba.Builder
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Almacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
lenguaje fuente | Texto | cadena | ||
oración_origen | Texto | cadena | ||
lengua de llegada | Texto | cadena | ||
frase_objetivo | Texto | cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (configuración predeterminada)
Tamaño de la descarga :
58.24 KiB
Tamaño del conjunto de datos :
162.74 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
Tamaño de la descarga :
70.95 KiB
Tamaño del conjunto de datos :
175.46 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
Tamaño de la descarga :
99.88 KiB
Tamaño del conjunto de datos :
204.64 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
Tamaño de la descarga :
89.55 KiB
Tamaño del conjunto de datos :
194.24 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_de
Tamaño de la descarga :
103.09 KiB
Tamaño del conjunto de datos :
207.93 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_el
Tamaño de la descarga :
77.11 KiB
Tamaño del conjunto de datos :
181.65 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_es
Tamaño de la descarga :
70.57 KiB
Tamaño del conjunto de datos :
175.12 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_et
Tamaño de la descarga :
58.33 KiB
Tamaño del conjunto de datos :
162.85 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
Tamaño de la descarga :
64.52 KiB
Tamaño del conjunto de datos :
169.02 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
Tamaño de la descarga :
91.52 KiB
Tamaño del conjunto de datos :
196.15 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
Tamaño de la descarga :
73.90 KiB
Tamaño del conjunto de datos :
178.47 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
Tamaño de la descarga :
78.14 KiB
Tamaño del conjunto de datos :
182.68 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_he
Tamaño de la descarga :
81.54 KiB
Tamaño del conjunto de datos :
186.15 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
Tamaño de la descarga :
119.69 KiB
Tamaño del conjunto de datos :
224.89 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
Tamaño de la descarga :
67.27 KiB
Tamaño del conjunto de datos :
171.78 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_id
Tamaño de la descarga :
73.09 KiB
Tamaño del conjunto de datos :
177.61 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_it
Tamaño de la descarga :
64.29 KiB
Tamaño del conjunto de datos :
168.81 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
Tamaño de la descarga :
90.90 KiB
Tamaño del conjunto de datos :
195.53 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
Tamaño de la descarga :
13.59 KiB
Tamaño del conjunto de datos :
35.01 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 205 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
Tamaño de la descarga :
70.47 KiB
Tamaño del conjunto de datos :
148.67 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 746 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
Tamaño de la descarga :
46.07 KiB
Tamaño del conjunto de datos :
106.25 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 575 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
Tamaño de la descarga :
77.28 KiB
Tamaño del conjunto de datos :
181.88 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
Tamaño de la descarga :
92.50 KiB
Tamaño del conjunto de datos :
165.14 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 687 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
Tamaño de la descarga :
98.19 KiB
Tamaño del conjunto de datos :
202.96 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
Tamaño de la descarga :
71.55 KiB
Tamaño del conjunto de datos :
176.10 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
Tamaño de la descarga :
73.42 KiB
Tamaño del conjunto de datos :
177.95 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
Tamaño de la descarga :
90.30 KiB
Tamaño del conjunto de datos :
194.92 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
Tamaño de la descarga :
19.99 KiB
Tamaño del conjunto de datos :
60.75 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 390 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
Tamaño de la descarga :
38.52 KiB
Tamaño del conjunto de datos :
70.93 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 307 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_te
Tamaño de la descarga :
24.55 KiB
Tamaño del conjunto de datos :
49.07 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 234 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_th
Tamaño de la descarga :
61.72 KiB
Tamaño del conjunto de datos :
119.32 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 548 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
Tamaño de la descarga :
66.54 KiB
Tamaño del conjunto de datos :
171.04 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
Tamaño de la descarga :
70.20 KiB
Tamaño del conjunto de datos :
174.70 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
Tamaño de la descarga :
86.63 KiB
Tamaño del conjunto de datos :
191.20 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
Tamaño de la descarga :
89.26 KiB
Tamaño del conjunto de datos :
193.89 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
Tamaño de la descarga :
67.32 KiB
Tamaño del conjunto de datos :
171.85 KiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):