- Описание :
Перевести набор данных на основе данных с statmt.org.
Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://www.statmt.org/wmt16/translation-task.html
Исходный код :
tfds.translate.Wmt16Translate
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2016 cs-en.
Размер загрузки :
1.57 GiB
Размер набора данных :
7.56 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2999 |
'train' | 52 335 651 |
'validation' | 2656 |
- Структура функции :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
cs | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt16_translate/de-en
Описание конфигурации : набор данных задачи перевода WMT 2016 de-en.
Размер загрузки :
1.57 GiB
Размер набора данных :
1.38 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2999 |
'train' | 4 548 885 |
'validation' | 2169 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt16_translate/fi-ru
Описание конфигурации : набор данных задачи перевода WMT 2016 fi-en.
Размер загрузки :
260.51 MiB
Размер набора данных :
624.31 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6000 |
'train' | 2 073 394 |
'validation' | 1370 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
фи | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt16_translate/ro-en
Описание конфигурации : набор данных задачи перевода WMT 2016 ro-en.
Размер загрузки :
273.83 MiB
Размер набора данных :
194.35 MiB
.Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1999 |
'train' | 610 320 |
'validation' | 1999 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
Ро | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('ro', 'en')
Примеры ( tfds.as_dataframe ):
wmt16_translate/ru-en
Описание конфига: набор задач перевода WMT 2016 ru-en.
Размер загрузки :
993.38 MiB
Размер набора данных :
854.44 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2998 |
'train' | 2 516 162 |
'validation' | 2818 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
RU | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):
wmt16_translate/tr-ru
Описание конфигурации : набор данных задачи перевода WMT 2016 tr-en.
Размер загрузки :
59.32 MiB
Размер набора данных :
63.21 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3000 |
'train' | 205 756 |
'validation' | 1001 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
тр | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('tr', 'en')
Примеры ( tfds.as_dataframe ):