- Описание :
Перевести набор данных на основе данных с statmt.org.
Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://www.statmt.org/wmt15/translation-task.html
Исходный код :
tfds.translate.Wmt15Translate
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Автоматическое кэширование ( документация ): Нет
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
wmt15_translate/cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2015 cs-en.
Размер загрузки :
1.62 GiB
Размер набора данных :
2.89 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2656 |
'train' | 15 793 126 |
'validation' | 3003 |
- Структура функции :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
cs | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate/de-en
Описание конфигурации : набор данных задачи перевода WMT 2015 de-en.
Размер загрузки :
1.62 GiB
Размер набора данных :
1.37 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2169 |
'train' | 4 522 998 |
'validation' | 3003 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate/fi-ru
Описание конфигурации : набор данных задачи перевода WMT 2015 fi-en.
Размер загрузки :
260.51 MiB
Размер набора данных :
623.22 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1370 |
'train' | 2 073 394 |
'validation' | 1500 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
фи | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate/fr-en
Описание конфигурации : набор данных задачи перевода WMT 2015 fr-en.
Размер загрузки :
6.24 GiB
Размер набора данных :
14.65 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1500 |
'train' | 40 853 298 |
'validation' | 4503 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
фр | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fr', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate/ru-en
Описание конфига: набор задач перевода WMT 2015 ru-en.
Размер загрузки :
1.02 GiB
Размер набора данных :
843.90 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2818 |
'train' | 2 495 081 |
'validation' | 3003 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
RU | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):