- Описание :
Эти данные взяты из корпуса Tatoeba от субботы 17 ноября 2018 г.
Для каждого языка мы выбрали 1000 английских предложений и их переводы, если таковые имеются. Пожалуйста, ознакомьтесь с этой статьей для получения описания языков, их семейств и алфавитов, а также базовых результатов.
Обратите внимание, что английские предложения не идентичны для всех языковых пар. Это означает, что результаты не могут быть напрямую сопоставимы между языками.
Домашняя страница : http://opus.nlpl.eu/Tatoeba.php
Исходный код :
tfds.datasets.tatoeba.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
исходный язык | Текст | нить | ||
исходное_предложение | Текст | нить | ||
язык перевода | Текст | нить | ||
target_sentence | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (конфигурация по умолчанию)
Размер загрузки :
58.24 KiB
Размер набора данных :
162.74 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ar
Размер загрузки :
70.95 KiB
Размер набора данных :
175.46 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_bg
Размер загрузки :
99.88 KiB
Размер набора данных :
204.64 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_bn
Размер загрузки :
89.55 KiB
Размер набора данных :
194.24 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_de
Размер загрузки :
103.09 KiB
Размер набора данных :
207.93 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_el
Размер загрузки :
77.11 KiB
Размер набора данных :
181.65 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_es
Размер загрузки :
70.57 KiB
Размер набора данных :
175.12 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_et
Размер загрузки :
58.33 KiB
Размер набора данных :
162.85 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_eu
Размер загрузки :
64.52 KiB
Размер набора данных :
169.02 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fa
Размер загрузки :
91.52 KiB
Размер набора данных :
196.15 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fi
Размер загрузки :
73.90 KiB
Размер набора данных :
178.47 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fr
Размер загрузки :
78.14 KiB
Размер набора данных :
182.68 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_he
Размер загрузки :
81.54 KiB
Размер набора данных :
186.15 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_hi
Размер загрузки :
119.69 KiB
Размер набора данных :
224.89 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_hu
Размер загрузки :
67.27 KiB
Размер набора данных :
171.78 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_id
Размер загрузки :
73.09 KiB
Размер набора данных :
177.61 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_it
Размер загрузки :
64.29 KiB
Размер набора данных :
168.81 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ja
Размер загрузки :
90.90 KiB
Размер набора данных :
195.53 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_jv
Размер загрузки :
13.59 KiB
Размер набора данных :
35.01 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 205 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ka
Размер загрузки :
70.47 KiB
Размер набора данных :
148.67 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 746 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_kk
Размер загрузки :
46.07 KiB
Размер набора данных :
106.25 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 575 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ko
Размер загрузки :
77.28 KiB
Размер набора данных :
181.88 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ml
Размер загрузки :
92.50 KiB
Размер набора данных :
165.14 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 687 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_mr
Размер загрузки :
98.19 KiB
Размер набора данных :
202.96 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_nl
Размер загрузки :
71.55 KiB
Размер набора данных :
176.10 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_pt
Размер загрузки :
73.42 KiB
Размер набора данных :
177.95 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ru
Размер загрузки :
90.30 KiB
Размер набора данных :
194.92 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_sw
Размер загрузки :
19.99 KiB
Размер набора данных :
60.75 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 390 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ta
Размер загрузки :
38.52 KiB
Размер набора данных :
70.93 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 307 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_te
Размер загрузки :
24.55 KiB
Размер набора данных :
49.07 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 234 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_th
Размер загрузки :
61.72 KiB
Размер набора данных :
119.32 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 548 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_tl
Размер загрузки :
66.54 KiB
Размер набора данных :
171.04 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_tr
Размер загрузки :
70.20 KiB
Размер набора данных :
174.70 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ur
Размер загрузки :
86.63 KiB
Размер набора данных :
191.20 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_vi
Размер загрузки :
89.26 KiB
Размер набора данных :
193.89 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_zh
Размер загрузки :
67.32 KiB
Размер набора данных :
171.85 KiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):