- Mô tả :
Dữ liệu này được trích xuất từ kho văn bản Tatoeba, ngày Thứ Bảy 2018/11/17.
Đối với mỗi ngôn ngữ, chúng tôi đã chọn 1000 câu tiếng Anh và bản dịch của chúng, nếu có. Vui lòng kiểm tra bài báo này để biết mô tả về các ngôn ngữ, họ và chữ viết của chúng cũng như các kết quả cơ bản.
Xin lưu ý rằng các câu tiếng Anh không giống nhau đối với tất cả các cặp ngôn ngữ. Điều này có nghĩa là kết quả không thể so sánh trực tiếp giữa các ngôn ngữ.
Trang chủ : http://opus.nlpl.eu/Tatoeba.php
Mã nguồn :
tfds.datasets.tatoeba.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Tự động lưu vào bộ đệm ( tài liệu ): Có
Cấu trúc tính năng :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
nguồn_ngôn ngữ | Chữ | sợi dây | ||
nguồn_câu | Chữ | sợi dây | ||
ngôn ngữ mục tiêu | Chữ | sợi dây | ||
target_sentence | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (cấu hình mặc định)
Kích thước tải xuống :
58.24 KiB
Kích thước tập dữ liệu :
162.74 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
Kích thước tải xuống :
70.95 KiB
Kích thước tập dữ liệu :
175.46 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
Kích thước tải xuống :
99.88 KiB
Kích thước tập dữ liệu :
204.64 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
Kích thước tải xuống :
89.55 KiB
Kích thước tập dữ liệu :
194.24 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_de
Kích thước tải xuống :
103.09 KiB
Kích thước tập dữ liệu :
207.93 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_el
Kích thước tải xuống :
77.11 KiB
Kích thước tập dữ liệu :
181.65 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_es
Kích thước tải xuống :
70.57 KiB
Kích thước tập dữ liệu :
175.12 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_et
Kích thước tải xuống :
58.33 KiB
Kích thước tập dữ liệu :
162.85 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
Kích thước tải xuống :
64.52 KiB
Kích thước tập dữ liệu :
169.02 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
Kích thước tải xuống :
91.52 KiB
Kích thước tập dữ liệu :
196.15 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
Kích thước tải xuống :
73.90 KiB
Kích thước tập dữ liệu :
178.47 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
Kích thước tải xuống :
78.14 KiB
Kích thước tập dữ liệu :
182.68 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_he
Kích thước tải xuống :
81.54 KiB
Kích thước tập dữ liệu :
186.15 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
Kích thước tải xuống :
119.69 KiB
Kích thước tập dữ liệu :
224.89 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
Kích thước tải xuống :
67.27 KiB
Kích thước tập dữ liệu :
171.78 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_id
Kích thước tải xuống :
73.09 KiB
Kích thước tập dữ liệu :
177.61 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_it
Kích thước tải xuống :
64.29 KiB
Kích thước tập dữ liệu :
168.81 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
Kích thước tải xuống :
90.90 KiB
Kích thước tập dữ liệu :
195.53 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
Kích thước tải xuống :
13.59 KiB
Kích thước tập dữ liệu :
35.01 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 205 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
Kích thước tải xuống :
70.47 KiB
Kích thước tập dữ liệu :
148.67 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 746 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
Kích thước tải xuống :
46.07 KiB
Kích thước tập dữ liệu :
106.25 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 575 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
Kích thước tải xuống :
77.28 KiB
Kích thước tập dữ liệu :
181.88 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
Kích thước tải xuống :
92.50 KiB
Kích thước tập dữ liệu :
165.14 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 687 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
Kích thước tải xuống :
98.19 KiB
Kích thước tập dữ liệu :
202.96 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
Kích thước tải xuống :
71.55 KiB
Kích thước tập dữ liệu :
176.10 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
Kích thước tải xuống :
73.42 KiB
Kích thước tập dữ liệu :
177.95 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
Kích thước tải xuống :
90.30 KiB
Kích thước tập dữ liệu :
194.92 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
Kích thước tải xuống :
19.99 KiB
Kích thước tập dữ liệu :
60.75 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 390 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
Kích thước tải xuống :
38.52 KiB
Kích thước tập dữ liệu :
70.93 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 307 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_te
Kích thước tải xuống :
24.55 KiB
Kích thước tập dữ liệu :
49.07 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 234 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_th
Kích thước tải xuống :
61.72 KiB
Kích thước tập dữ liệu :
119.32 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 548 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
Kích thước tải xuống :
66.54 KiB
Kích thước tập dữ liệu :
171.04 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
Kích thước tải xuống :
70.20 KiB
Kích thước tập dữ liệu :
174.70 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
Kích thước tải xuống :
86.63 KiB
Kích thước tập dữ liệu :
191.20 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
Kích thước tải xuống :
89.26 KiB
Kích thước tập dữ liệu :
193.89 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
Kích thước tải xuống :
67.32 KiB
Kích thước tập dữ liệu :
171.85 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):