- תיאור :
נתונים אלו מופקים מקורפוס Tatoeba, מיום שבת 2018/11/17.
עבור כל שפה, בחרנו 1000 משפטים באנגלית והתרגומים שלהם, אם זמינים. אנא עיין במאמר זה לקבלת תיאור של השפות, המשפחות והסקריפטים שלהן וכן תוצאות בסיס.
שימו לב שהמשפטים באנגלית אינם זהים עבור כל צמדי השפות. המשמעות היא שהתוצאות אינן ניתנות להשוואה ישירה בין השפות.
דף הבית : http://opus.nlpl.eu/Tatoeba.php
קוד מקור :
tfds.datasets.tatoeba.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
שמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
שפת מקור | טֶקסט | חוּט | ||
מקור_משפט | טֶקסט | חוּט | ||
target_language | טֶקסט | חוּט | ||
משפט_מטרה | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (תצורת ברירת המחדל)
גודל הורדה :
58.24 KiB
גודל מערך נתונים :
162.74 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
גודל הורדה :
70.95 KiB
גודל מערך נתונים :
175.46 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
גודל הורדה :
99.88 KiB
גודל מערך נתונים :
204.64 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
גודל הורדה :
89.55 KiB
גודל מערך נתונים :
194.24 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_de
גודל הורדה :
103.09 KiB
גודל מערך נתונים :
207.93 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_el
גודל הורדה :
77.11 KiB
גודל ערכת נתונים:
181.65 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_es
גודל הורדה :
70.57 KiB
גודל מערך נתונים :
175.12 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_et
גודל הורדה :
58.33 KiB
גודל מערך נתונים :
162.85 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
גודל הורדה :
64.52 KiB
גודל מערך נתונים :
169.02 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
גודל הורדה :
91.52 KiB
גודל מערך נתונים :
196.15 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
גודל הורדה :
73.90 KiB
גודל מערך נתונים :
178.47 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
גודל הורדה :
78.14 KiB
גודל מערך נתונים :
182.68 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_he
גודל הורדה :
81.54 KiB
גודל מערך נתונים :
186.15 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
גודל הורדה :
119.69 KiB
גודל מערך נתונים :
224.89 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
גודל הורדה :
67.27 KiB
גודל מערך נתונים :
171.78 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_id
גודל הורדה :
73.09 KiB
גודל מערך נתונים :
177.61 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_it
גודל הורדה :
64.29 KiB
גודל מערך נתונים :
168.81 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
גודל הורדה :
90.90 KiB
גודל מערך נתונים :
195.53 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
גודל הורדה :
13.59 KiB
גודל מערך נתונים :
35.01 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 205 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
גודל הורדה :
70.47 KiB
גודל מערך נתונים :
148.67 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 746 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
גודל הורדה :
46.07 KiB
גודל מערך נתונים :
106.25 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 575 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
גודל הורדה :
77.28 KiB
גודל מערך נתונים :
181.88 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
גודל הורדה :
92.50 KiB
גודל מערך נתונים :
165.14 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 687 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
גודל הורדה :
98.19 KiB
גודל מערך נתונים :
202.96 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
גודל הורדה :
71.55 KiB
גודל מערך נתונים :
176.10 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
גודל הורדה :
73.42 KiB
גודל מערך נתונים :
177.95 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
גודל הורדה :
90.30 KiB
גודל מערך נתונים :
194.92 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
גודל הורדה :
19.99 KiB
גודל מערך נתונים :
60.75 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 390 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
גודל הורדה :
38.52 KiB
גודל מערך נתונים :
70.93 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 307 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_te
גודל הורדה :
24.55 KiB
גודל מערך נתונים :
49.07 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 234 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_th
גודל הורדה :
61.72 KiB
גודל מערך נתונים :
119.32 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 548 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
גודל הורדה :
66.54 KiB
גודל מערך נתונים :
171.04 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
גודל הורדה :
70.20 KiB
גודל מערך נתונים :
174.70 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
גודל הורדה :
86.63 KiB
גודל מערך נתונים :
191.20 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
גודל הורדה :
89.26 KiB
גודל מערך נתונים :
193.89 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
גודל הורדה :
67.32 KiB
גודל מערך נתונים :
171.85 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000 |
- דוגמאות ( tfds.as_dataframe ):